![](CintillaTecNM-ITD.png)


# Analítica de Datos en las Organizaciones

# Docente: José Gabriel Rodríguez Rivas


# Unidad I   Introducción a los Datos

## Intrduccion a  Dataframes


[1.1 Introduccion a **Dataframes** en Pandas](#id1)<br>
[1.2 Cargar CSV como un dataframe](#id5)<br>
... [1.2.1 Añadir encabezados a dataframe](#id51)<br>
[1.3 Indexing dataframes ](#id2)<br>
[1.4 Copiar un dataframe](#id4)<br>
[1.5 Consultas en un dataframe](#id6)<br>
... [1.5.1 Consultar especificando criterios de selección y columnas a mostrar](#id61)<br>
... [1.5.2 Obtener los Valores Unicos de una columna en un dataframe](#id62)<br>
... [1.5.3 Medir el espacio en memoria que ocupa el dataframe](#id63)<br>
... [1.5.4 Ejercicios de Consultas en un dataframe](#id64)<br>
[1.6 Borrar columnas o renglones en dataframes  ](#id7)<br>
[1.7 Agregar columnas en dataframes  ](#id8)<br>
...  [5.8.1  Reemplazar valores ](#id81)<br>
[1.8 Group by dataframe](#id9)<br>
... [1.8.1 Ejercicios de Group By](#id91)<br> 
... [1.8.2 Aggregación](#id92)<br> 
[1.9 Exportar Dataframe a CSV, Excel](#id11)<br>
[1.10 Leer archivo de Excel](#id13)<br>

![](Pandas_python.png)

## Pandas 

- Es una **biblioteca de código abierto** para Python que agrega **estructuras de datos de alto rendimiento** y **herramientas para el análisis de grandes conjuntos de datos**. 
- Las **estructuras de datos de pandas** incluyen las **series** y las estructuras **dataframes (marco de datos)**. 
- **Los dataframes son la principal estructura de pandas**.
- Pandas es una **librería externa** y se tiene que instalar. (En el caso de Anaconda viene instalado).
- Se importa en un programa de Python mediante la instruccion import.
- Es convencional utilizar **import pandas as pd** para facilitar la escritura de las referencias a los componentes de pandas. 


##  1.1 Introducción a Dataframes en Pandas   <a id='id1'> </a>

![](dataframe.png)

### Dataframe

- Un DataFrame es conceptualmente un **objeto de serie bidimensional, donde hay un índice y varias columnas de contenido**, con cada columna que tiene una etiqueta. 
- Un Dataframe es una matriz de dos ejes etiquetada. Es como una tabla de datos de Excel.
- Se utiliza para **almacenar cualquier tipo de información**. 
- El Dataframe (marcos de datos) son la principal estructura de pandas, además de la más utilizada para el análisis de datos.
- Loss marcos de datos se construyen fácilmente de una variedad de otras estructuras de datos y archivos externos, como archivos de Excel o achivos CSV. 
- Hay una **amplia variedad de métodos disponibles** para objetos de marcos de datos. 
- Las filas y columnas se pueden manipular de diversas maneras y los operadores están disponibles para realizar transformaciones matemáticas, de cadena y lógicas al contenido del marco de datos.


![](The_dataframe.png)

###  Documentación de Referencia

- Lista de métodos de dataframe  
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html


In [1]:
# Primero de bemos importar la libreria de pandas
# Es convencional utilizar import pandas as pd

import pandas as pd
import numpy as np

In [2]:
# En este primer ejemplo el índice lo crea automaticamente pandas y será un consecutivo
# empezando desde cero

# Referencia para la informacion
# https://imco.org.mx/wp-content/uploads/2021/04/20210304_HablemosDeIngresos_2021_Documento.pdf

Estado1 = pd.Series( {'Estado': 'Aguascalientes',
                    'AportacionesFederales': 10676000000,
                    'ParticipacionesFederales': 7158000000,
                    'RecaudacionImpuestos': 1232000000} )
Estado2 = pd.Series( {'Estado': 'Baja California',
                    'AportacionesFederales': 20518000000,
                    'ParticipacionesFederales': 19401000000,
                    'RecaudacionImpuestos': 4341000000} )
Estado3 = pd.Series( {'Estado': 'Baja California Sur',
                    'AportacionesFederales': 7173000000,
                    'ParticipacionesFederales': 4809000000,
                    'RecaudacionImpuestos': 1112000000} )
Estado4 = pd.Series( {'Estado': 'Campeche',
                    'AportacionesFederales': 8835000000,
                    'ParticipacionesFederales':  5628000000,
                    'RecaudacionImpuestos': 1663000000} )

In [3]:
# Estado1, Estado2

# Verificamos el tipo de cualquier serie. 
# En este caso es de tipo serie

Estado1

Estado                      Aguascalientes
AportacionesFederales          10676000000
ParticipacionesFederales        7158000000
RecaudacionImpuestos            1232000000
dtype: object

In [4]:

# Convertimos a dataframe

Ingresos = pd.DataFrame( [Estado1, Estado2, Estado3, Estado4] )
Ingresos

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
0,Aguascalientes,10676000000,7158000000,1232000000
1,Baja California,20518000000,19401000000,4341000000
2,Baja California Sur,7173000000,4809000000,1112000000
3,Campeche,8835000000,5628000000,1663000000


In [5]:
# Copiar las series anteriores y quitar el estado de la lista de columnas 

Estado1 = pd.Series( {'AportacionesFederales': 10676000000,
                    'ParticipacionesFederales': 7158000000,
                    'RecaudacionImpuestos': 1232000000} )
Estado2 = pd.Series( {'AportacionesFederales': 20518000000,
                    'ParticipacionesFederales': 19401000000,
                    'RecaudacionImpuestos': 4341000000} )
Estado3 = pd.Series( {'AportacionesFederales': 7173000000,
                    'ParticipacionesFederales': 4809000000,
                    'RecaudacionImpuestos': 1112000000} )
Estado4 = pd.Series( {'AportacionesFederales': 8835000000,
                    'ParticipacionesFederales':  5628000000,
                    'RecaudacionImpuestos': 1663000000} )



Ingresos = pd.DataFrame([Estado1, Estado2, Estado3, Estado4],
                        index=['Aguascalientes', 'Baja California', 'Baja California Sur', 
                              'Campeche'])

Ingresos

Unnamed: 0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Aguascalientes,10676000000,7158000000,1232000000
Baja California,20518000000,19401000000,4341000000
Baja California Sur,7173000000,4809000000,1112000000
Campeche,8835000000,5628000000,1663000000


### Acesso a datos del dataframe

- Se puede consultar un dataframe de pandas, ya sea **por la posición del índice o por la etiqueta de índice**. 
- Si no le das un índice a la serie o dataframe, la posición y la etiqueta son efectivamente los mismos valores. 
- **Para consultar por la etiqueta de índice**, puede utilizar **el atributo loc**.
- **Para consultar por ubicación numérica**, a partir de cero, **utilice el atributo iloc**.

###   Atributo loc  (acceder por índice)
- Una sola etiqueta, por ejemplo: **5** o **'a'**, (tenga en cuenta que **5** se interpreta como una etiqueta del índice y nunca como una posición entera a lo largo del índice).
- Una lista o matriz de etiquetas, por ejemplo: **['a', 'B', 'C']**.
- Un objeto de corte con etiquetas, por ejemplo: **'a': 'f'**.
- Una matriz booleana de la misma longitud que el eje que se está cortando, p. **[Verdadero, Falso, Verdadero]**.


### Atributo iloc  (acceder por índice entero)
- Un número entero, p. 5.
- Una lista o matriz de enteros, p. [4, 3, 0].
- Un objeto de segmento con enteros, p. 1:7.

In [6]:
# # Accedemos a la informacion del dataframe por el indice

Ingresos.iloc[1]

AportacionesFederales       20518000000
ParticipacionesFederales    19401000000
RecaudacionImpuestos         4341000000
Name: Baja California, dtype: int64

In [7]:
# Accedemos a la informacion del dataframe por el indice de texto
# En este caso buscamos campeche

Ingresos.loc['Campeche']

AportacionesFederales       8835000000
ParticipacionesFederales    5628000000
RecaudacionImpuestos        1663000000
Name: Campeche, dtype: int64

In [8]:
# Cuando pandas regresa un renglon como resultado, lo regresa como una serie

type(Ingresos.loc['Campeche'])

pandas.core.series.Series

In [9]:
# Especificamos una lista de valores a buscar por índice
# Observar que regresa un datafarme

Ingresos.loc[ ['Campeche', 'Aguascalientes']]

Unnamed: 0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Campeche,8835000000,5628000000,1663000000
Aguascalientes,10676000000,7158000000,1232000000


In [10]:
# Podemos usar el concepto de slicing que se vio en listas para ver una sección del dataframe
Ingresos.iloc[1:3]

Unnamed: 0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Baja California,20518000000,19401000000,4341000000
Baja California Sur,7173000000,4809000000,1112000000


###  Searching in both axes

- DataFrame de Pandas permite seleccionar rápidamente datos basados en múltiples ejes. 
- Por ejemplo, se desea  listar la recuadación de Impuestos de Campeche.  
- Proporcionamos dos parámetros al atributo loc, **el primero es el índice de fila y el otro el nombre de columna**.

In [11]:
 Ingresos.loc['Campeche', 'RecaudacionImpuestos']

1663000000

In [12]:
# Se puede usar listas para especificar que renglones y columnas se desean obtener

Ingresos.loc[['Campeche','Aguascalientes'], 
             ['AportacionesFederales', 'ParticipacionesFederales' ]]

Unnamed: 0,AportacionesFederales,ParticipacionesFederales
Campeche,8835000000,5628000000
Aguascalientes,10676000000,7158000000


In [13]:
Ingresos.iloc[1:3, 1]

Baja California        19401000000
Baja California Sur     4809000000
Name: ParticipacionesFederales, dtype: int64

In [14]:
Ingresos.iloc[1:3, 1:2]

Unnamed: 0,ParticipacionesFederales
Baja California,19401000000
Baja California Sur,4809000000


##   1.2 Cargar CSV como un dataframe  <a id='id5'> </a> 

- Lea un archivo de valores separados por comas (csv) en DataFrame. 
- También admite, opcionalmente, iterar o dividir el archivo en fragmentos.

In [15]:
df = pd.read_csv("20-07-31-COVID19MEXICO-codificado.csv")
df

  df = pd.read_csv("20-07-31-COVID19MEXICO-codificado.csv")


Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,31/07/2020,15f43a,2,4,2,Mujer,No especificado,2,4,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,El Salvador,99,No aplica
1,31/07/2020,0d6511,2,4,11,Hombre,No especificado,11,20,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,Estados Unidos de AmÃ©rica,99,No aplica
2,31/07/2020,0baff6,2,9,9,Mujer,No especificado,9,16,Ambulatorio,...,No,No,No,No,Si,Positivo,99,Brasil,99,No aplica
3,31/07/2020,1b5b75,2,9,9,Mujer,No especificado,15,37,Ambulatorio,...,Si,No,No,No,No,Positivo,99,EspaÃ±a,99,No aplica
4,31/07/2020,120290,2,9,15,Mujer,No especificado,15,37,Ambulatorio,...,No,No,No,No,No,Positivo,2,Argentina,99,No aplica
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
984283,31/07/2020,0fff21,1,4,32,Mujer,Zacatecas,32,42,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No
984284,31/07/2020,118a72,2,12,10,Mujer,Zacatecas,10,5,Hospitalizado,...,No,No,No,No,Si,Pendiente,99,MÃ©xico,99,No
984285,31/07/2020,09010e,1,12,32,Mujer,Zacatecas,32,56,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,Si
984286,31/07/2020,1d5f85,1,12,14,Hombre,Zacatecas,14,39,Hospitalizado,...,No,Si,No,No,No,Pendiente,99,MÃ©xico,99,Si


### Tipo de Datos

- Los datos se encuentran en una variedad de tipos.
- Los tipos principales almacenados en dataframes de Pandas son <b>object</b>, <b>float</b>, <b>int</b>, <b>bool</b> y <b>datetime64</b>. 
- Para aprender mejor acerca de cada atributo es mejor para nosotros saber el tipo de dato de cada columna. 
- En Pandas, podemos usar el atributo **df.dtypes**.


In [16]:
df.dtypes

FECHA_ACTUALIZACION    object
ID_REGISTRO            object
ORIGEN                  int64
SECTOR                  int64
ENTIDAD_UM              int64
SEXO                   object
ENTIDAD_NAC            object
ENTIDAD_RES             int64
MUNICIPIO_RES           int64
TIPO_PACIENTE          object
FECHA_INGRESO          object
FECHA_SINTOMAS         object
FECHA_DEF              object
INTUBADO               object
NEUMONIA               object
EDAD                    int64
NACIONALIDAD            int64
EMBARAZO               object
HABLA_LENGUA_INDIG     object
DIABETES               object
EPOC                   object
ASMA                   object
INMUSUPR               object
HIPERTENSION           object
OTRA_COM               object
CARDIOVASCULAR         object
OBESIDAD               object
RENAL_CRONICA          object
TABAQUISMO             object
OTRO_CASO              object
RESULTADO              object
MIGRANTE                int64
PAIS_NACIONALIDAD      object
PAIS_ORIGE

### Info (método)

- Otro método que puede usar para revisar el dataframe es:
- Este método imprime información sobre un DataFrame, incluido el tipo de índice y las columnas, los valores no nulos y el uso de la memoria.


In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 984288 entries, 0 to 984287
Data columns (total 35 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   FECHA_ACTUALIZACION  984288 non-null  object
 1   ID_REGISTRO          984288 non-null  object
 2   ORIGEN               984288 non-null  int64 
 3   SECTOR               984288 non-null  int64 
 4   ENTIDAD_UM           984288 non-null  int64 
 5   SEXO                 984288 non-null  object
 6   ENTIDAD_NAC          984288 non-null  object
 7   ENTIDAD_RES          984288 non-null  int64 
 8   MUNICIPIO_RES        984288 non-null  int64 
 9   TIPO_PACIENTE        984288 non-null  object
 10  FECHA_INGRESO        984288 non-null  object
 11  FECHA_SINTOMAS       984288 non-null  object
 12  FECHA_DEF            984288 non-null  object
 13  INTUBADO             984288 non-null  object
 14  NEUMONIA             984288 non-null  object
 15  EDAD                 984288 non-nu

### Métodos head() y tail()

Después de leer el conjunto de datos podemos utilizar los siguientes 2 métodos:

- **head(n)** para revisar las primeras n filas del dataframe; donde n es u entero. 
- **tail(n)** mostrará las n filas del final del dataframe.

In [18]:
# Mostrar los primeros 5 renglones
df.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,31/07/2020,15f43a,2,4,2,Mujer,No especificado,2,4,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,El Salvador,99,No aplica
1,31/07/2020,0d6511,2,4,11,Hombre,No especificado,11,20,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,Estados Unidos de AmÃ©rica,99,No aplica
2,31/07/2020,0baff6,2,9,9,Mujer,No especificado,9,16,Ambulatorio,...,No,No,No,No,Si,Positivo,99,Brasil,99,No aplica
3,31/07/2020,1b5b75,2,9,9,Mujer,No especificado,15,37,Ambulatorio,...,Si,No,No,No,No,Positivo,99,EspaÃ±a,99,No aplica
4,31/07/2020,120290,2,9,15,Mujer,No especificado,15,37,Ambulatorio,...,No,No,No,No,No,Positivo,2,Argentina,99,No aplica


In [19]:
# Mostrar los últimos  5 renglones
df.tail()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
984283,31/07/2020,0fff21,1,4,32,Mujer,Zacatecas,32,42,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No
984284,31/07/2020,118a72,2,12,10,Mujer,Zacatecas,10,5,Hospitalizado,...,No,No,No,No,Si,Pendiente,99,MÃ©xico,99,No
984285,31/07/2020,09010e,1,12,32,Mujer,Zacatecas,32,56,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,Si
984286,31/07/2020,1d5f85,1,12,14,Hombre,Zacatecas,14,39,Hospitalizado,...,No,Si,No,No,No,Pendiente,99,MÃ©xico,99,Si
984287,31/07/2020,17ecb4,1,4,1,Hombre,Zacatecas,1,1,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No


In [20]:
##   shape   Devuelve una tupla que representa la dimensionalidad del DataFrame

df.shape

(984288, 35)

### 5.5.1  Añadir encabezados a dataframe <a id='id51'> </a> 

In [21]:
# Notese que el archivo csv no tiene encabezados y el dataframe pone como
# encabezados los datos que aparecen en el primer renglón

DiagnosticoIMCO_NoHeaders = pd.read_csv("DiagnosticoIMCO_NoHeaders.csv")
DiagnosticoIMCO_NoHeaders.head()

Unnamed: 0,Aguascalientes,"10,676,000,000","7,158,000,000","1,232,000,000",Centro-Norte
0,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
1,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
2,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
3,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte
4,Ciudad de México,16205000000,68270000000,58800000000,Centro-Sur


In [22]:
# creamos una lista con los valores de los encabezados 

encabezados = ["Estado", "AportacionesFederales", "ParticipacionesFederales",
           "RecaudacionImpuestos", "Region" ]


print(encabezados)

['Estado', 'AportacionesFederales', 'ParticipacionesFederales', 'RecaudacionImpuestos', 'Region']


In [23]:
#  Opcion 1, especificar los encabezados al abrir e archivo
# https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

DiagnosticoIMCO_NoHeaders = pd.read_csv("DiagnosticoIMCO_NoHeaders.csv", names=encabezados)
DiagnosticoIMCO_NoHeaders.head()

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos,Region
0,Aguascalientes,10676000000,7158000000,1232000000,Centro-Norte
1,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
2,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
3,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
4,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte


In [24]:
# opcion 2, especificar encabezados despues de abrir el archivo

DiagnosticoIMCO_NoHeaders = pd.read_csv("DiagnosticoIMCO_NoHeaders.csv", header = None)
DiagnosticoIMCO_NoHeaders.head()

Unnamed: 0,0,1,2,3,4
0,Aguascalientes,10676000000,7158000000,1232000000,Centro-Norte
1,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
2,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
3,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
4,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte


In [None]:
DiagnosticoIMCO_NoHeaders.columns = encabezados

DiagnosticoIMCO_NoHeaders.head()

##  1.3 Indexing dataframes   <a id='id2'> </a>

- El índice es el modo de acceso a un valor en Series y dataframes. Algo así como los nombres de celdas (A1, B2, etc) en Excel para acceder a un valor específico.
- Podemos modificar el valor del índice que se asignó por defecto
- Establecer una columna como índice, permite seleccionar más fácil un valor(es) a buscar
- Se establece un indice con el comando **set_index()**.
- **set_index()** es un proceso destructivo, no mantiene el índice actual (En versiones anteriores de Pandas). 
- Si quieres mantener el index actual, necesitas crear manualmente una nueva columna y copiar en ella los valores desde el atributo index.

In [None]:
# Volvemos a copiar el primer dataframe

Estado1 = pd.Series( {'Estado': 'Aguascalientes',
                    'AportacionesFederales': 10676000000,
                    'ParticipacionesFederales': 7158000000,
                    'RecaudacionImpuestos': 1232000000} )
Estado2 = pd.Series( {'Estado': 'Baja California',
                    'AportacionesFederales': 20518000000,
                    'ParticipacionesFederales': 19401000000,
                    'RecaudacionImpuestos': 4341000000} )
Estado3 = pd.Series( {'Estado': 'Baja California Sur',
                    'AportacionesFederales': 7173000000,
                    'ParticipacionesFederales': 4809000000,
                    'RecaudacionImpuestos': 1112000000} )
Estado4 = pd.Series( {'Estado': 'Campeche',
                    'AportacionesFederales': 8835000000,
                    'ParticipacionesFederales':  5628000000,
                    'RecaudacionImpuestos': 1663000000} )



In [None]:
# Observar que el indice es numérico y se generó automáticamente al crear el dataframe
#

Ingresos = pd.DataFrame( [Estado1, Estado2, Estado3, Estado4] )
Ingresos

In [None]:
# Podemos indicar la columna estado como índce para que sea más fácil las búsquedas

Ingresos = Ingresos.set_index('Estado')
Ingresos

In [None]:
Ingresos.loc['Campeche']

In [None]:
Ingresos.loc['Campeche', 'RecaudacionImpuestos']

In [None]:
Ingresos.loc[ ['Campeche', 'Aguascalientes']]

##  Cambiar índice

In [None]:
medallero = pd.read_csv("MedallasOlimpiadas2020_10.csv")
medallero

In [None]:
medallero.set_index("Pais")

In [None]:
medallero.set_index("Posicion")

In [None]:
medallero.set_index("Total")

In [None]:
medallero

# Notese que aunque establecimos el índice en diferentes columnas en las celdas anteriores,
# en realidad no se hace sobre el dataframe original como podemos observar si volvemos
# a llamar al medallero. 
# por lo tanto, en los casos anteriores el resultado fue una copoia 

In [None]:
# Para que surta el cambio de inmediato, debemos especificar el atributo inplace = True

medallero.set_index("Pais", inplace=True)

In [None]:
medallero

In [None]:
# Si reseteamos el indice, debemos colocar inplace = True
# Ver lo que pasa si no se especifica inplace

medallero.reset_index()

In [None]:
# Ver lo que pasa si no se especifica inplace
medallero

In [None]:
# Ahora con inplace

medallero.reset_index(inplace = True)

In [None]:
medallero

##  1.4 Copiar un dataframe   <a id='id4'> </a> 

> **DataFrame.copy(deep=True)**

- **copy** Hace una copia de los índices y datos de este objeto.

- Cuando **deep=True** (predeterminado), se **creará un nuevo objeto con una copia de los datos e índices del objeto que llama**. Las modificaciones a los datos o índices de la copia no se reflejarán en el objeto original (ver notas a continuación).

- Cuando **deep=False**, se creará un **nuevo objeto sin copiar los datos o el índice** del objeto que llama (solo se copian las referencias a los datos y el índice). Cualquier cambio en los datos del original se reflejará en la copia superficial (y viceversa).

In [None]:
Ingresos

In [None]:
IngresosCopia = Ingresos.copy()
IngresosCopia

## 1.5 Consultas en un dataframe  <a id='id6'> </a> 

- Las consultas en dataframes se realizan usando el **enmascaramiento booleano**. 
- El enmascaramiento booleano provoca que las consultas sean más rápidas y eficientes en Numpy.
- Una **máscara booleana es una matriz que puede ser de una dimensión** (una series) , o **dos dimensiones (dataframe)**, donde cada uno de los valores de la matriz es verdadero o falso. 
- Esta **matriz se superpone** esencialmente **sobre la estructura de datos** que estamos consultando, y **cualquier celda alineada con el valor verdadero sera admitida en nuestro resultado final, y cualquier signo alineado con un valor falso no sera admitido**.
- El enmascaramiento booleano es poderoso conceptualmente y es la piedra angular de las consultas eficientes de NumPy y Pandas.
- Las máscaras booleanas se crean aplicando operadores directamente a la serie de pandas o objetos dataframe.


In [None]:
# Consultar el dataframe por sexo

# La series resultante es indexada, donde el valor de cada celda es verdadero o 
# falso, dependiendo de si el sexo de la persona es mujer o no

# El enmascaramiento en este caso lo vemos en True los que si cumplen la condicion, y False
# Los que no cumplen el criterio. 

df['SEXO'] == "Mujer"

In [None]:
# Limitar con el método head() a los primeros 10 registros del dataframe

df['SEXO'].head(10) == "Mujer"


### La funcion where

- La función **where toma una mascara booleana como una condición, lo aplica al dataframe** o a la series, y **retorna una nuevo dataframe** o series de la misma forma. 



In [None]:
# Como ya se mencionó, La función where toma una mascara booleana como una condición, 
# lo aplica al dataframe, y retorna una nuevo dataframe de la misma forma. 
# Apliquemos esta máscara booleana a los datos y creamos un dataframe de solo
# aquellas personas del sexo "Mujer"

# En el resultado podemos ver el enmascaramiento. Los que no cumplieron la condicion
# se enmascaran como un valor  NaN

# NaN, proviene del acrónimo en inglés «Not a Number» (en español: no es un número)


mujeres =df.where(df['SEXO'] == "Mujer" )
mujeres

In [None]:
# La mayoría de las funciones estadísticas integradas en el objeto dataframe 
# ignoran los valores de NaN,  por eso al ejecutar una consulta a modo de
# comprobacion con el metodo count,  observamos que los NaN no forman parte de la funcion
# estadistica aplicada.

mujeres["SEXO"].count()

In [None]:
# Enseguida podemos eliminar esas filas que no tienen datos. 
# Para hacer esto, podemos usar la función dropna(). 

# Dropna se puede especificar con el atributo axis si se quiere eliminar el renglon o
# la columna. Por defecto es el renglon, por lo tanto no es necesario especificarlo


mujeres = mujeres.dropna()
mujeres

### Atajo más rápido para consultas o método abreviado

- Actualmente **no tenemos que usar la función where explícitamente**. 
- pandas permite al operador de indexación tomar una mascara booleana como un valor en lugar de solo una lista de nombres de columnas. 
- **La sintaxis puede parecer un poco desordenada**, especialmente si no estás acostumbrado a programar lenguajes con operadores sobrecargados, pero el resultado es que puede filtrar y reducir los dataframes con relativa rapidez.
- Aquí se prsentará un ejemplo más conciso de cómo podríamos consultar este dataframe. 
- Notará que **no hay NaNs cuando consulta el dataframe de esta manera. pandas automáticamente filtra las salidas de las filas con valores**. 

In [None]:
#  Version con where 
# mujeres =df.where(df['SEXO'] == "Mujer" )

# Version simplificada
mujeres2 = df[ df['SEXO'] == "Mujer" ]
mujeres2

### Condiciones mas complejas usando los operadores AND y OR

- Operador **AND**  &  (Todas las condiciones unidas por un AND se deben cumplir)
- Operador **OR**   | (Cualquiera de las condiciones unidas por un OR se deben cumplir)

In [None]:
# Aqui estamos creando un nuevo dataframe (PruebasDgo a partir de una consulta)
# Con los criterios:  Que sea de Durango y que esté hospitalizado 

PruebasDgo = df[ ( df['ENTIDAD_NAC'] == "Durango") &
                ( df['TIPO_PACIENTE'] == "Hospitalizado") ]
PruebasDgo

In [None]:
# Que sea de Durango, que esté hospitalizado y sea positivo a la prueba del COVID

PruebasDgo = df[ ( df['ENTIDAD_NAC'] == "Durango") & 
                ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo") ]
PruebasDgo


In [None]:
# juntando AND y Or

# Que sea de Durango, que esté hospitalizado y sea positivo a la prueba del COVID ó que sea
# de Zacatecas, que esté hospitalizado y sea positivo

PruebasDgo = df[ ( ( df['ENTIDAD_NAC'] == "Durango") & ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo"))  | 
                
                ( df['ENTIDAD_NAC'] == "Zacatecas") & ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo") ]
PruebasDgo

In [None]:
# Otra forma de hacerlo 8 Primero el OR y lo ponemos entre paréntesis

PruebasDgo = df[ ( ( df['ENTIDAD_NAC'] == "Durango") | 
                  ( df['ENTIDAD_NAC'] == "Zacatecas") ) &
                
                  ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo") ]
PruebasDgo

In [None]:
# POdemos contabilizar cuantos registros existen en el dataframe
# el resultado lo genera por cada atributo o columna

PruebasDgo.count()

In [None]:
# Es mejor si lo hacemos sobre una columna 

PruebasDgo["ID_REGISTRO"].count()

### 1.5.1 Consultar especificando criterios de selección y columnas a mostrar  <a id='id61'> </a>

- Primero se especifican los criterios de seleccion
- Enseguida la lista de columnas a mostrar

In [None]:
# Buscar los positivos y mostrar las columnas de ENTIDAD_NAC, RESULTADO y SEXO

totalcasos = df[ ( df['RESULTADO'] == "Positivo") ]  [["ENTIDAD_NAC", "RESULTADO", "SEXO" ]]                
totalcasos.head(10)

In [None]:
# Buscar los positivos  del estado de  Colima y mostrar las columnas de ENTIDAD_NAC, RESULTADO y SEXO

totalcasos = df[ ( df['ENTIDAD_NAC'] == "Colima") & 
                ( df['RESULTADO'] == "Positivo") ] [["ENTIDAD_NAC", "RESULTADO", "SEXO" ]]
                
totalcasos.head(10)

### 1.5.2  Obtener los Valores Únicos de una columna en un dataframe <a id='id62'> </a> 

In [None]:
#  Equivalente al distinct de SQL

df['ENTIDAD_NAC'].unique()

In [None]:
df['RESULTADO'].unique()

### 1.5.3 Medir el espacio en memoria que ocupa el dataframe  <a id='id63'> </a>



In [None]:
import sys
print(sys.getsizeof(df))      ## 1,733,346,211   

In [None]:
# Megabyte es el equivalente a 1024 kilobytes o 1,048,576 bytes

megas = 1733346211 / 1048576
megas

### 1.5.4 Ejercicios de consultas en el dataframe  <a id='id64'> </a>

1. Consultar en el dataframe COVID los que son de Campeche y son Positivos
2. Consultar en el dataframe COVID los que son de Aguascalientes y están hospitalizados
3. Consultar en el dataframe COVID los que son de Durango, Son positivos, tienen Obesidad, tienen diabetes y tienen hipertension
4. Consultar en el dataframe COVID los que son de Colima o de Morelos y que son positivos

In [None]:
covid = pd.read_csv("20-07-31-COVID19MEXICO-codificado.csv")

In [None]:
# Ejercicio 1

covid2 = covid[ (covid["ENTIDAD_NAC"] == "Campeche") & (covid["RESULTADO"] =="Positivo")]
covid2

In [None]:
# Ejercicio 2

covid2 = covid[ (covid["ENTIDAD_NAC"] == "Aguascalientes") & 
               (covid["TIPO_PACIENTE"] == "Hospitalizado")]
covid2

In [None]:
# Ejercicio 3

# Consultar en el dataframe COVID los que son de Durango, Son positivos, tienen Obesidad, 
#tienen diabetes y tienen hipertension

covid2 = covid[ (covid["ENTIDAD_NAC"]== "Durango") &
               (covid["RESULTADO"] == "Positivo") & 
               (covid["OBESIDAD"] == "Si") &
               ( covid["DIABETES"] == "Si") &
               (covid["HIPERTENSION"] =="Si")]

covid2

In [None]:
# Ejercicio 4

#  los que son de Colima o de Morelos y que son positivos

covid2 = covid[ ( (covid["ENTIDAD_NAC"] == "Colima") | 
               (covid["ENTIDAD_NAC"] == "Morelos") ) & (covid["RESULTADO"] == "Positivo")]

covid2

In [None]:
covid2.count()

In [None]:
covid2["ID_REGISTRO"].count()

## 1.6 Borrar columnas o renglones en dataframes  <a id='id7'> </a> 

- Se usa la funcion **drop** para borrar renglones o columnas
- La función drop no cambia el DataFrame de forma predeterminada, en su lugar, devuelve una copia del DataFrame con las filas eliminadas.

**Drop** tiene dos parámetros opcionales 
- El primero se llama **in place** y si se establece en **True**, el DataFrame se actualizará en su lugar, en lugar de devolver una copia. 
- El segundo parámetro es **axis**, que especifica que se debe borrar. De forma predeterminada, este valor es **0 para borrar las filas**. Pero puede cambiarlo a **1 si desea borrar una columna**.

In [None]:
IngresosCopia


In [None]:
# Borrar el renglon con indice 3

IngresosCopia.drop(3)

In [None]:
# El borrado lo hace en una copia y no lo borra definitivamente

IngresosCopia

In [None]:
# Para que el borrado sea de inmediato, debemos agregar el atributo inplace = True

IngresosCopia.drop(3, inplace= True)

In [None]:
# Ahora si vemos que se borro definitivamente
IngresosCopia

In [None]:
# Si queremos borrar una columna debemos especificar que es sobre el eje 1, es decir
# sobre las columnas

IngresosCopia.drop("AportacionesFederales", axis = 1)

In [None]:
IngresosCopia

In [None]:
# NUevamente, especificar inplace = True

IngresosCopia.drop("AportacionesFederales", axis = 1, inplace = True)

In [None]:
IngresosCopia

In [None]:
#   Volvemos a copiar el dataframe ingresos

IngresosCopia = Ingresos.copy()
IngresosCopia

In [None]:
# Es mas facil borrrar si se establece como indice el estado

IngresosCopia.set_index("Estado", inplace = True)
IngresosCopia

In [None]:
IngresosCopia.drop("Baja California Sur", inplace = True)
IngresosCopia

### Alternativa 2 de borrado de columnas de dataframes

- Esta opción tiene efecto inmediato

In [None]:
del IngresosCopia["ParticipacionesFederales"]

In [None]:
IngresosCopia

## 1.7 Agregar columnas en dataframes <a id='id8'> </a> 

In [None]:
# Verificamos los datos actuales que tenemos en el dataframe Ingresos

Ingresos

In [None]:
# Agregamos una nueva columna calculada que sume las 3 columnas existentes 

# La diagonal invertida la usamos para continuar el código en otr línea

Ingresos["Total"] = Ingresos["AportacionesFederales"] + \
                    Ingresos["ParticipacionesFederales"] + \
                    Ingresos["RecaudacionImpuestos"]

In [None]:
Ingresos

### 1.7.1  Reemplazar valores   <a id='id81'> </a> 

- En el dataset COVID necesitamos reemplazar los valores que vienen codificados como SEXO, RESULTADO, etc.


In [None]:
df.head(10)

In [None]:
# Contra valores de ORIGEN

df['ORIGEN'].value_counts()

In [None]:
df["ORIGEN"].replace(2, "ISSSTE")

In [None]:
# Al verificar vemos que no realizo el cambio en el dataframe original

df['ORIGEN'].value_counts()

In [None]:
# Volvemos a ejecutar pero ahora con inplace = True

df["ORIGEN"].replace(2, "ISSSTE", inplace = True)

In [None]:
df['ORIGEN'].value_counts()

In [None]:
df.head()

In [None]:
# Probar este ejemplo

# mapping_dict = {4: "CRUZ ROJA", 9:"SEDENA"}
# covid2['SECTOR'] = covid2['SECTOR'].map(mapping_dict)


## 1.8 Group by dataframe  <a id='id9'> </a> 

- Una operación groupby implica alguna combinación de dividir el objeto en función de los valores de una columna o más, aplicar una función y combinar los resultados. 
- Esto se puede usar para agrupar grandes cantidades de datos y calcular operaciones en estos grupos.
- **Groupby** esencialmente **divide los datos en diferentes grupos dependiendo de la(s) variable(s) de su elección**.

"agrupar por" implica uno o más de los siguientes pasos:

- Dividir los datos en grupos según algunos criterios.
- Aplicar una función a cada grupo de forma independiente.
- Combinar los resultados en una estructura de datos.

![](GroupBy.png)

In [None]:
#  df = pd.read_csv("20-07-31-COVID19MEXICO-codificado.csv")
df.head()

In [None]:
df['ENTIDAD_NAC'].value_counts().sort_values()

In [None]:
df['ENTIDAD_NAC'].value_counts().sort_index()

### Ejemplo 1 

#### Agrupar por entidad de nacimiento y contar cuantas pruebas se realizaron por entidad

In [None]:

df.groupby(['ENTIDAD_NAC']).count().head(10)

In [None]:
# Agregamos una nueva columna al dataframe del covid  <<total>> para generar 
# los totales agrupados y hacer el calculo mas rápido al no involucrar todas las columnas

df["Total"] = 0
df.head()

In [None]:
# generamos un nuevo dataframe con 2 columnas para Simplificar el cálculo 
# Notese la velocidad, al incluir solo 2 columnas genera más rápido el resultado

totalcasos = df[["ENTIDAD_NAC","Total"]]  
totalcasos.groupby(['ENTIDAD_NAC']).count().head(10)

In [None]:
# Se puede incluir la función reset_index() para restablecer un nuevo índice
# al dataframe agrupado, y lo convierte en una estructura de datos más adecuada

totalcasos = df[["ENTIDAD_NAC","Total"]]  
totalcasos.groupby(['ENTIDAD_NAC']).count().reset_index().head()

### Ejemplo 2

#### Contar cuantas pruebas de COVID se realizaron por estado, desglosado por sexo

In [None]:

totalcasos = df[["ENTIDAD_NAC","SEXO","Total"]]  
totalcasos.groupby(['ENTIDAD_NAC',"SEXO"]).count().head(10)

In [None]:
# De la misma forma podemos resetear el indice para generar un dataframe más amigable

totalcasos = df[["ENTIDAD_NAC","SEXO","Total"]]  
totalcasos.groupby(['ENTIDAD_NAC',"SEXO"]).count().reset_index().head(10)

### Ejemplo 3   

#### Contar cuantas pruebas de COVID se realizaron por estado, desglosado por sexo y tipo  de paciente

In [None]:


totalcasos = df[["ENTIDAD_NAC", "SEXO", "TIPO_PACIENTE", "Total"]]  
totalcasos.groupby(['ENTIDAD_NAC',"SEXO", "TIPO_PACIENTE"]).count().head(10)

In [None]:
# De la misma forma, reseteamos el indice

# Agregamos un nivel más de grupos

totalcasos = df[["ENTIDAD_NAC", "SEXO", "TIPO_PACIENTE", "Total"]]  

totalcasos.groupby(['ENTIDAD_NAC',"SEXO", "TIPO_PACIENTE"]).count().reset_index().head(10)


###  Ejemplo 4  

#### Contar el numero de casos por día

In [None]:
totalcasos = df[ ["FECHA_INGRESO", "Total"] ]
totalcasos.head()

In [None]:
# El resultado que arroja es correcto el calculo, pero lo que esta mal es que 
# el tipo de dato es como texto y por eso no hay un orden cronológico
#  tenemos que convertir a tipo de dato **datetime**

totalcasos.groupby(["FECHA_INGRESO"]).count().reset_index().head(10)

In [None]:
# Notese que la columna FECHA_INGRESO es de tipo object 

df.info()

In [None]:
# Convertimos a datetime la columna FECHA_INGRESO

df['FECHA_INGRESO'] = pd.to_datetime(df['FECHA_INGRESO'], format="%d/%m/%Y")

In [None]:
# Volvemos a verificar y ya esta el cambio

df.info()

In [None]:
totalcasos = df[ ["FECHA_INGRESO", "Total"] ]
totalcasos = totalcasos.groupby( ["FECHA_INGRESO"] ).count().reset_index()
totalcasos.head(10)

In [None]:
totalcasos.tail(10)

In [None]:
# Los siguientes 2 celdas donde se grafica
# No hacerla en clase

totalcasos.set_index("FECHA_INGRESO", inplace = True)
totalcasos

In [None]:
totalcasos.plot.line()

### Ejemplo 5   

#### Contar los que dieron positivo, y que tienen diabetes e hipertensión 

In [None]:
# Primero especificamos los criterios de seleccion de los registros, luego
# en la proyeccion indicamos las columnas a mostrar y ahi aplicamos la funcion group by

PruebasDgo = df[ ( df['RESULTADO'] == "Positivo") &
                ( df['DIABETES'] == "Si") & 
                ( df['HIPERTENSION'] == "Si")] [["ENTIDAD_NAC","Total"]].groupby("ENTIDAD_NAC").count().reset_index() 
PruebasDgo.head(10)

In [None]:
PruebasDgo.set_index("ENTIDAD_NAC", inplace = True)

In [None]:
PruebasDgo.sort_values("Total")

In [None]:
PruebasDgo.sort_values("Total").tail(5).plot.barh()

In [None]:
PruebasDgo.sort_values("Total").head(5).plot.barh()

In [None]:
PruebasDgo.sort_values("Total").plot.barh()

### Ejemplos con el archivo DiagnosticoIMCOcsv

In [None]:
# El archivo DiagnosticoIMCOcsv estaba con comas con separadores de miles
# debe volverse a descargar

DiagnosticoIMCO = pd.read_csv("DiagnosticoIMCOcsv.csv")

DiagnosticoIMCO.head(10)

In [None]:
# Verificar que en el tipo de dato sea int64
DiagnosticoIMCO.dtypes

In [None]:
# Agregamos una columna total para ahi generar el calculo

DiagnosticoIMCO["Total"] = 0
DiagnosticoIMCO.head()

In [None]:
# calculamos la recuadación de impuestos por Region

totalReg = DiagnosticoIMCO[["Region", "RecaudacionImpuestos", "Total"]]  

total2 = totalReg.groupby(['Region'])['RecaudacionImpuestos'].sum().reset_index()


In [None]:
total2

In [None]:
total2["RecaudacionImpuestos"] = total2["RecaudacionImpuestos"].astype(float).apply(lambda x: f'{x:,}')

In [None]:
total2

In [None]:
total2.dtypes

###  5.9.1 Ejercicios de Group By      <a id='id91'> </a> 

1. Calcular cuantas pruebas se realizaron por edad
2. Mostrar por Sexo los resultados obtenidos por la prueba COVID
3. Mostrar el detalle de la situacion de la DIABETES de las personas que dieron positivo desglosado por sexo
4. Mostrar el detalle de la situacion de TIPO_PACIENTE de las personas que dieron positivo desglosado por sexo
5. Generar un reporte que muestre el número de defunciones desglozado por estado y sexo



### Ejercicio 1

- Calcular cuantas pruebas se realizaron por edad

In [None]:
PruebasDgo = df[["EDAD","Total"]].groupby("EDAD").count().reset_index() 
PruebasDgo.head()

###  Segmentacion de datos por  edades

- Se usa la funcion **cut** de pandas
- Usar **cut** cuando se desea segmentar y ordenar valores de datos en contenedores. 
- Esta función también es útil para **pasar de una variable continua a una variable categórica**. 
- Por ejemplo, cortar podría **convertir edades en grupos de rangos de edad**. 
- Admite el agrupamiento en un número igual de contenedores o en una matriz de contenedores especificada previamente.

In [None]:
bins = [-1, 9, 19, 29, 39, 49, 59, 69, 79, 89, 99, 130]

In [None]:
names = ["0-9", "10-19", "20-29", "30-39", "40-49", "50-59", "60-9", "70-79", "80-89", "90-99", "+100"]

In [None]:
PruebasDgo["EDAD"] = pd.cut(PruebasDgo["EDAD"], bins, labels = names)

In [None]:
PruebasDgo.head(12)

In [None]:
PruebasDgo = PruebasDgo[["EDAD","Total"]].groupby("EDAD").sum().reset_index()

In [None]:
PruebasDgo

In [None]:
PruebasDgo.set_index("EDAD", inplace = True)

In [None]:
PruebasDgo.plot.barh()

### Ejercicio 2

- Mostrar por Sexo los resultados obtenidos por la prueba COVID

In [None]:
totalcasos = df[["SEXO", "RESULTADO", "Total"]]
totalcasos.head()

In [None]:
totalcasos = totalcasos.groupby(["SEXO", "RESULTADO"]).count()

In [None]:
totalcasos

### Ejercicio 3

- Mostrar el detalle de la situacion de la DIABETES de las personas que dieron positivo desglosado por sexo

In [None]:
totalcasos = df[(df['RESULTADO'] == "Positivo")] [["SEXO", "DIABETES", "Total"]]
totalcasos.head()

In [None]:
totalcasos = totalcasos.groupby( ["SEXO", "DIABETES"] ).count()

In [None]:
totalcasos

### Ejercicio 4

- Mostrar el detalle de la situacion de TIPO_PACIENTE de las personas que dieron positivo desglosado por sexo

In [None]:
totalcasos = df[(df['RESULTADO'] == "Positivo")] [["SEXO", "TIPO_PACIENTE", "Total"]]
totalcasos.head()

In [None]:
totalcasos = totalcasos.groupby(["SEXO","TIPO_PACIENTE"]).count()
totalcasos

### Ejercicio 5

- Generar un reporte que muestre el número de defunciones desglozado por estado y sexo

In [None]:
# Mostramos la fecha de defuncion del nuevo dataframe para verificar las fechas

totalcasos = df[ df["FECHA_DEF"] !="9999-99-99"] [["ENTIDAD_NAC", "SEXO", "FECHA_DEF","Total"]]
totalcasos

In [None]:
# Quitamos la fecha de defuncion del nuevo dataframe porque no es necesario para el calculo

totalcasos = df[ df["FECHA_DEF"] !="9999-99-99"] [["ENTIDAD_NAC", "SEXO", "Total"]]
totalcasos

In [None]:
totalcasos = totalcasos.groupby(["ENTIDAD_NAC", "SEXO"]).count()
totalcasos

### Ejercicio 6

- Calcular cuantas 

## 5.9.2  Aggregación <a id='id92'> </a> 
  
- Una vez que se ha creado el objeto **GroupBy**, hay varios métodos disponibles para realizar un cálculo en los datos agrupados.
- La API de agregación permite expresar múltiples operaciones de agregación de una manera concisa. El punto de entrada para la agregación es **DataFrame.aggregate() o el alias DataFrame.agg()**.

#### Agregar con múltiples funciones

- Puede pasar **múltiples argumentos de agregación como una lista**. 
- Los resultados de cada una de las funciones pasadas serán una fila en el DataFrame resultante. 
- Estos se nombran naturalmente a partir de la función de agregación.

En muchas situaciones es posible que deseemos dividir el conjunto de datos en grupos y hacer algo con esos grupos. Es posible que deseemos realizar una de las siguientes acciones:  

- Calcular una estadística de resumen (o estadísticas) para cada grupo. 
- Calcular sumas o medias de grupos.
- Calcular los tamaños/conteos de los grupos.

Fuente:  
https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html?highlight=filter#aggregation

In [None]:
DiagnosticoIMCO.head(7)

In [None]:
DiagnosticoIMCO.groupby("Region").aggregate(np.sum)

In [None]:
# Por el warning que marca este código, lo ideal seria proyectar las columnas que si se pueden sacar la estadistica

DiagnosticoIMCO.groupby("Region").aggregate( [np.size, np.sum, np.mean] )

In [None]:
DiagnosticoIMCO.groupby("Region").agg(
    Estados = pd.NamedAgg(column="RecaudacionImpuestos", aggfunc="size"),
    Minimo = pd.NamedAgg(column="RecaudacionImpuestos", aggfunc="min"),
    Maximo = pd.NamedAgg(column="RecaudacionImpuestos", aggfunc="max"),
    Total = pd.NamedAgg(column="RecaudacionImpuestos", aggfunc="sum"),
    Promedio = pd.NamedAgg(column="RecaudacionImpuestos", aggfunc="mean")
)

In [None]:
DiagnosticoIMCO.head(7).style.set_caption('Ingresos de los estados')


In [None]:
# Para el siguiente ejercicio vamos a Mostrar la edad minima, maxima y promedio por # de los que fallecieron
# Primero verificamos la informacion en general 

totalcasos = df[ df["FECHA_DEF"] !="9999-99-99"] [["ENTIDAD_NAC", "EDAD","Total"]]
totalcasos

In [None]:
# Ahora si Mostramos la edad minima, maxima y promedio por ESTADO de los que fallecieron

totalcasos = df[ df["FECHA_DEF"] !="9999-99-99"] [["ENTIDAD_NAC", "EDAD"]]
totalcasos.groupby(["ENTIDAD_NAC"]).agg(['min', 'max', 'mean']).head(15)

In [None]:
# Agregamos el SEXO

totalcasos = df[ df["FECHA_DEF"] !="9999-99-99"] [["ENTIDAD_NAC", "SEXO", "EDAD"]]
totalcasos.groupby(["ENTIDAD_NAC", "SEXO"]).agg(['min', 'max', 'mean']).head(15)


# ESTE TEMA ESTA PENDIENTE......  NO HA SALIDO BIEN

## 5.9.2  Filtros en grupos <a id='id92'> </a> 
  
Descartar algunos grupos, de acuerdo con un cálculo por grupos que evalúa Verdadero o Falso. Algunos ejemplos:

- Descartar los datos que pertenecen a grupos con solo unos pocos miembros.
- Filtrar los datos según la suma o la media del grupo.

Fuente:  
https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html?highlight=filter#dataframe-column-selection-in-groupby 

In [None]:
totalcasos = df[ df["FECHA_DEF"] !="9999-99-99"] [["ENTIDAD_NAC", "SEXO", "Total"]]
totalcasos = totalcasos.groupby(["ENTIDAD_NAC", "SEXO"]).count()
totalcasos.head()

## 5.10 Merge Dataframes     <a id='id10'> </a> 

- **pandas** tiene operaciones de **combinación de dataframes** en memoria de alto rendimiento muy similares a las bases de datos relacionales como SQL.
- **pandas** proporciona una sola función, **merge()**, como punto de entrada para todas las operaciones de combinación de bases de datos entre DataFrames.

Las operaciones de combinación entre dos DataFrames se debe considerar lo siguiente:

- **Uniones uno a uno**: por ejemplo, cuando se unen dos objetos DataFrame en sus índices (que deben contener valores únicos).
- **Uniones de muchos a uno**: por ejemplo, cuando se une un índice (único) a una o más columnas en un DataFrame diferente.
- **Uniones de muchos a muchos** : unión de columnas sobre columnas!

### how 
- El argumento **how** para fusionar los dataframes sirve para determinar qué claves se incluirán en la tabla resultante. 
- Si una combinación de índices (keys) no aparece en las tablas izquierda o derecha, los valores en la tabla unida serán NA. 

![](PandasMerge.png)

In [None]:
#df_catalogo_sector = pd.read_excel('Catalogos_covid.xlsx',
#                       sheet_name = 'Catálogo SEXO',
#                      skiprows =range(20),
#                      skipfooter=2 )

df_catalogo_sexo = pd.read_excel('Catalogos_covid.xlsx',
                       sheet_name = 'Catálogo SEXO' )
df_catalogo_sexo

In [None]:
df_catalogo_tipopaciente = pd.read_excel('Catalogos_covid.xlsx',
                       sheet_name = 'Catálogo TIPO_PACIENTE' )
df_catalogo_tipopaciente

In [None]:
df_catalogo_entidades = pd.read_excel('Catalogos_covid.xlsx',
                       sheet_name = 'Catálogo de ENTIDADES' )
df_catalogo_entidades.head()

In [None]:
df_catalogo_resultado = pd.read_excel('Catalogos_covid.xlsx',
                       sheet_name = 'Catálogo RESULTADO' )
df_catalogo_resultado.head()

In [None]:
covid2 = pd.read_csv("20-07-31-COVID19MEXICO.csv", encoding = 'ISO-8859-1')
covid2


In [None]:
covidMERGE = pd.merge(covid2, df_catalogo_entidades, left_on="ENTIDAD_NAC",
                  right_on="CLAVE_ENTIDAD")

In [None]:
# El resultado del merge esta al final

covidMERGE

In [None]:
covidMERGE.columns

In [None]:
#  HACEMOS 

covidMERGE = pd.merge(covidMERGE,  df_catalogo_sexo, left_on="SEXO",
                  right_on="CLAVE")

In [None]:
covidMERGE

In [None]:
## CONSULTAMOS nuevamente LAS COLUMNAS PARA BORRRAR LAS QUE NO NECESITAMOS 

In [None]:
covidMERGE.columns

In [None]:
columnas = ["FECHA_ACTUALIZACION", "ID_REGISTRO", "ORIGEN", "SECTOR", "ENTIDAD_UM", "ENTIDAD_RES", 
            "MUNICIPIO_RES", "HABLA_LENGUA_INDIG", "OTRA_COM", "OTRO_CASO", "MIGRANTE", "PAIS_ORIGEN",
           "CLAVE_ENTIDAD", "ABREVIATURA", "CLAVE"]

covidMERGE.drop(columnas, axis = 1, inplace = True)

In [None]:
covidMERGE

In [None]:
covidMERGE.columns

In [None]:
# Ahora hacemos la union con el catalogo de tipo paciente

covidMERGE = pd.merge(covidMERGE,  df_catalogo_tipopaciente, left_on="TIPO_PACIENTE",
                  right_on="CLAVE")
covidMERGE

In [None]:
columnas = ["ENTIDAD_NAC", "SEXO", "TIPO_PACIENTE"]

covidMERGE.drop(columnas, axis = 1, inplace = True)

In [None]:
covidMERGE

In [None]:
covidMERGE.columns

In [None]:
# RENOMBRAR LAS COLUMNAS CON UN NOMBRE MAS ADECUADO 

covidMERGE.rename(columns={"DESCRIPCIÓN_x": "SEXO", "DESCRIPCIÓN_y": "TIPO_PACIENTE"}, inplace = True)
covidMERGE

## 5.11 Exportar Dataframe a csv      <a id='id11'> </a> 

In [None]:
# Exportar dataframe a un archivo csv los registros que cumplan los siguientes criterios de
# seleccion de registros


PruebasDgo = df[ ( df['ENTIDAD_NAC'] == "Durango") & ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo") ]
PruebasDgo


In [None]:

PruebasDgo.to_csv("Positivos Durango Hospitalizados.csv")

In [None]:
# Quitar el indice del archivo generado

PruebasDgo.to_csv("mujeres.csv", index = False)

## 5.12  PIVOT  Tables   <a id='id12'> </a> 

Devuelve el DataFrame remodelado organizado por los valores de índice/columna especificados.

- Remodele los datos (produzca una tabla "pivote") en función de los valores de las columnas. 
- Utiliza valores únicos de índices/columnas especificados para formar ejes del DataFrame resultante. 
- Esta función no admite la agregación de datos, varios valores darán como resultado un índice múltiple en las columnas. 

![](Pivot.png)

In [None]:
# Verificamos como estan los datos actualmente

covidMERGE.head()

In [None]:
# Realizamos la tabla pivote o tabla dinamica

covidMERGE.pivot_table( values= 'RESULTADO' , index='ENTIDAD_FEDERATIVA', columns='TIPO_PACIENTE', aggfunc=np.size)

In [None]:
# Realizamos la tabla pivote o tabla dinamica

covidMERGE.pivot_table( values= 'RESULTADO' , index='ENTIDAD_FEDERATIVA', columns='SEXO', aggfunc=np.size)

In [None]:
# Realizamos la tabla pivote o tabla dinamica

covidMERGE.pivot_table( values= 'RESULTADO' , index='ENTIDAD_FEDERATIVA', columns='SEXO', aggfunc=np.size)

## 5.12 Valores perdidos   <a id='id12'> </a> 

## PENDIENTE

In [None]:
import pandas as pd

# conjunto de datos de la recopilación de la página  Humanitarian Data Exchange.
# Esta página web es un excelente recurso para personas interesadas en explorar datos
# relacionados con inquietudes humanitarias internacionales.

# https://data.humdata.org/dataset/wfp-food-prices-for-mexico


df2  = pd.read_csv("wfp_food_prices_mex.csv")
df2

## 5.13 Leer archivo de Excel   <a id='id13'> </a> 

Instalar librería  **xlrd**:

- pip install xlrd
- conda install -c anaconda xlrd
- Entorno gráfico de Anaconda

In [None]:
DiagnosticoIMCO = pd.read_excel('DiagnosticoIMCO.xlsx',
                       sheet_name = 'IMCO',
                      skiprows =range(6),
                      skipfooter=2 )


DiagnosticoIMCO.head()

## 5.14 Convertir tipos de datos   <a id='id14'> </a> 

- Convertir de Object a Datetime
- Convertir de Object a Int
- Convertir de Object a Float

In [None]:
df.info()

In [None]:
# En dataframe del COVID las fechas aparecen como tipo object

df['FECHA_SINTOMAS'] = pd.to_datetime(df['FECHA_SINTOMAS'], format="%d/%m/%Y")

In [None]:
df.info()

## 5.15 Formatting the Display Dataframe  <a id='id15'> </a> 

Antes de agregar estilos, es útil mostrar que Styler puede distinguir el valor de visualización del valor real, tanto en valores de datos como en encabezados de índice o columnas. 
- Para controlar el valor de visualización, el texto se imprime en cada celda como una cadena, y podemos usar los métodos .format() y .format_index() para manipular esto de acuerdo con una cadena de especificación de formato o un invocable que toma un valor único y devuelve un String. 
- Es posible definir esto para toda la tabla o índice, o para columnas individuales o niveles MultiIndex.

- Además, la función de formato tiene un argumento de precisión para ayudar específicamente a dar formato a los flotantes, así como separadores decimales y de miles para admitir otras configuraciones regionales, 
- un argumento na_rep para mostrar los datos que faltan 
- un argumento de escape para ayudar a mostrar HTML seguro o LaTeX seguro. 
- El formateador predeterminado está configurado para adoptar la opción **styler.format.precision** de pandas, controlable mediante **pd.option_context('format.precision', 2):**

**Fuente:**
https://pandas.pydata.org/docs/user_guide/style.html    

In [None]:
DiagnosticoIMCO.head()

In [None]:
DiagnosticoIMCO.head(10).style.format(precision=0, thousands="," , 
                              formatter= {( "AportacionesFederales"): lambda x: "$ {:,.2f}".format(x), 
                                          ( "ParticipacionesFederales"): lambda x: "$ {:,.2f}".format(x),
                                          ( "RecaudacionImpuestos"): lambda x: "$ {:,.1f}".format(x)
                              })


In [None]:
DiagnosticoIMCO.dtypes

In [None]:
def make_pretty(styler):
    styler.set_caption("Distribución de Ingresos por estado")
    #styler.background_gradient(axis=None, vmin=1, vmax=2, cmap="YlGnBu")
    return styler

DiagnosticoIMCO.head(10).style.pipe(make_pretty)

In [None]:
import pandas as pd
covid2 = pd.read_csv("20-07-31-COVID19MEXICO.csv", encoding = 'ISO-8859-1')
covid2.head()



In [None]:
mapping_dict = {1: "Mujer", 2:"Hombre"}
covid2['SEXO'] = covid2['SEXO'].map(mapping_dict)

In [None]:
covid2.head()