
![](Logo3.png)


# Modulo V  Dataframes


## Tabla de Contenido

[5.1 Introduccion a **Dataframes** en Pandas](#id1)<br>
[5.2 Indexing dataframes ](#id2)<br>
[5.3 Transpuesta de un dataframe](#id3)<br>
[5.4 Copiar un dataframe](#id4)<br>
[5.5 Cargar CSV como un dataframe](#id5)<br>
... [5.5.1 Añadir encabezados a dataframe](#id51)<br>
[5.6 Consultas en un dataframe](#id6)<br>
... [5.6.1 Obtener los Valores Unicos de una columna en un dataframe](#id61)<br>
... [5.6.2 Medir el espacio en memoria que ocupa el dataframe](#id62)<br>
... [5.6.3 Ejercicios de Consultas en un dataframe](#id63)<br>

![](Pandas_python.png)

## Pandas 

- Es una **biblioteca de código abierto** para Python que agrega **estructuras de datos de alto rendimiento** y **herramientas para el análisis de grandes conjuntos de datos**. 
- Las **estructuras de datos de pandas** incluyen las **series** y las estructuras **dataframes (marco de datos)**. 
- **Los dataframes son la principal estructura de pandas**.
- Pandas es una **librería externa** y se tiene que instalar. (En el caso de Anaconda viene instalado).
- Se importa en un programa de Python mediante la instruccion import.
- Es convencional utilizar **import pandas as pd** para facilitar la escritura de las referencias a los componentes de pandas. 


##  5.1 Introducción a Dataframes en Pandas   <a id='id1'> </a>

![](dataframe.png)

### Dataframe

- Un DataFrame es conceptualmente un **objeto de serie bidimensional, donde hay un índice y varias columnas de contenido**, con cada columna que tiene una etiqueta. 
- Un Dataframe es una matriz de dos ejes etiquetada. Es como una tabla de datos de Excel.
- Se utiliza para **almacenar cualquier tipo de información**. 
- El Dataframe (marcos de datos) son la principal estructura de pandas, además de la más utilizada para el análisis de datos.
- Loss marcos de datos se construyen fácilmente de una variedad de otras estructuras de datos y archivos externos, como archivos de Excel o achivos CSV. 
- Hay una **amplia variedad de métodos disponibles** para objetos de marcos de datos. 
- Las filas y columnas se pueden manipular de diversas maneras y los operadores están disponibles para realizar transformaciones matemáticas, de cadena y lógicas al contenido del marco de datos.


![](The_dataframe.png)

###  Documentación de Referencia

- Lista de métodos de dataframe  
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html


In [1]:
# Primero de bemos importar la libreria de pandas
# Es convencional utilizar import pandas as pd

import pandas as pd

In [2]:
# En este primer ejemplo el índice lo crea automaticamente pandas y será un consecutivo
# empezando desde cero

# Referencia para la informacion
# https://imco.org.mx/wp-content/uploads/2021/04/20210304_HablemosDeIngresos_2021_Documento.pdf

Estado1 = pd.Series( {'Estado': 'Aguascalientes',
                    'AportacionesFederales': 10676000000,
                    'ParticipacionesFederales': 7158000000,
                    'RecaudacionImpuestos': 1232000000} )
Estado2 = pd.Series( {'Estado': 'Baja California',
                    'AportacionesFederales': 20518000000,
                    'ParticipacionesFederales': 19401000000,
                    'RecaudacionImpuestos': 4341000000} )
Estado3 = pd.Series( {'Estado': 'Baja California Sur',
                    'AportacionesFederales': 7173000000,
                    'ParticipacionesFederales': 4809000000,
                    'RecaudacionImpuestos': 1112000000} )
Estado4 = pd.Series( {'Estado': 'Campeche',
                    'AportacionesFederales': 8835000000,
                    'ParticipacionesFederales':  5628000000,
                    'RecaudacionImpuestos': 1663000000} )

In [3]:
Estado1

Estado                      Aguascalientes
AportacionesFederales          10676000000
ParticipacionesFederales        7158000000
RecaudacionImpuestos            1232000000
dtype: object

In [4]:
# Convertimos a dataframe las series definidas en el punto anterior
# El índice lo genera automaticamente y asigna un consecutivo iniciando en cero (0)

Ingresos = pd.DataFrame( [Estado1, Estado2, Estado3, Estado4] )
Ingresos

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
0,Aguascalientes,10676000000,7158000000,1232000000
1,Baja California,20518000000,19401000000,4341000000
2,Baja California Sur,7173000000,4809000000,1112000000
3,Campeche,8835000000,5628000000,1663000000


In [5]:
# Copiar las series anteriores y quitar el estado de la lista de columnas 


Estado1 = pd.Series( {'AportacionesFederales': 10676000000,
                    'ParticipacionesFederales': 7158000000,
                    'RecaudacionImpuestos': 1232000000} )
Estado2 = pd.Series( {'AportacionesFederales': 20518000000,
                    'ParticipacionesFederales': 19401000000,
                    'RecaudacionImpuestos': 4341000000} )
Estado3 = pd.Series( {'AportacionesFederales': 7173000000,
                    'ParticipacionesFederales': 4809000000,
                    'RecaudacionImpuestos': 1112000000} )
Estado4 = pd.Series( {'AportacionesFederales': 8835000000,
                    'ParticipacionesFederales':  5628000000,
                    'RecaudacionImpuestos': 1663000000} )

# Especificamos que el índice de cada renglón es el nombre del estado

Ingresos = pd.DataFrame([Estado1, Estado2, Estado3, Estado4],
                        index=['Aguascalientes', 'Baja California', 'Baja California Sur', 
                              'Campeche'])

Ingresos

Unnamed: 0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Aguascalientes,10676000000,7158000000,1232000000
Baja California,20518000000,19401000000,4341000000
Baja California Sur,7173000000,4809000000,1112000000
Campeche,8835000000,5628000000,1663000000


### Acesso a datos del dataframe

- Se puede consultar un dataframe de pandas, ya sea **por la posición del índice o por la etiqueta de índice**. 
- Si no le das un índice a la serie o dataframe, la posición y la etiqueta son efectivamente los mismos valores. 
- **Para consultar por la etiqueta de índice**, puede utilizar **el atributo loc**.
- **Para consultar por ubicación numérica**, a partir de cero, **utilice el atributo iloc**.

###   Atributo loc  (acceder por índice)
- Una sola etiqueta, por ejemplo: **5** o **'a'**, (tenga en cuenta que **5** se interpreta como una etiqueta del índice y nunca como una posición entera a lo largo del índice).
- Una lista o matriz de etiquetas, por ejemplo: **['a', 'B', 'C']**.
- Un objeto de corte con etiquetas, por ejemplo: **'a': 'f'**.
- Una matriz booleana de la misma longitud que el eje que se está cortando, p. **[Verdadero, Falso, Verdadero]**.


### Atributo iloc  (acceder por índice entero)
- Un número entero, p. 5.
- Una lista o matriz de enteros, p. [4, 3, 0].
- Un objeto de segmento con enteros, p. 1:7.

In [6]:
# # Accedemos a la informacion del dataframe por el indice numérico

Ingresos.iloc[1]

AportacionesFederales       20518000000
ParticipacionesFederales    19401000000
RecaudacionImpuestos         4341000000
Name: Baja California, dtype: int64

In [7]:
# Accedemos a la informacion del dataframe por el índice de texto (estado)
# En este caso buscamos campeche

Ingresos.loc['Campeche']

AportacionesFederales       8835000000
ParticipacionesFederales    5628000000
RecaudacionImpuestos        1663000000
Name: Campeche, dtype: int64

In [8]:
# Cuando pandas regresa un renglón como resultado, lo regresa como una serie

type(Ingresos.loc['Campeche'])

pandas.core.series.Series

In [9]:
# Especificamos una lista de valores a buscar por índice
# Observar que regresa un datafarme

Ingresos.loc[ ['Campeche', 'Aguascalientes']]

Unnamed: 0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Campeche,8835000000,5628000000,1663000000
Aguascalientes,10676000000,7158000000,1232000000


In [10]:
# Podemos usar el concepto de slicing que se vio en listas para ver una sección del dataframe
Ingresos.iloc[1:3]

Unnamed: 0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Baja California,20518000000,19401000000,4341000000
Baja California Sur,7173000000,4809000000,1112000000


###  Searching in both axes

- DataFrame de Pandas permite seleccionar rápidamente datos basados en múltiples ejes. 
- Por ejemplo, se desea  listar la recuadación de Impuestos de Campeche.  
- Proporcionamos dos parámetros al atributo loc, **el primero es el índice de fila y el otro el nombre de columna**.

In [11]:
 Ingresos.loc['Campeche', 'RecaudacionImpuestos']

1663000000

In [12]:
# Se puede usar listas para especificar que renglones y columnas se desean obtener

Ingresos.loc[['Campeche','Aguascalientes'], 
             ['AportacionesFederales', 'ParticipacionesFederales' ]]

Unnamed: 0,AportacionesFederales,ParticipacionesFederales
Campeche,8835000000,5628000000
Aguascalientes,10676000000,7158000000


In [13]:
Ingresos.iloc[1:3, 1]

Baja California        19401000000
Baja California Sur     4809000000
Name: ParticipacionesFederales, dtype: int64

In [14]:
Ingresos.iloc[1:3, 1:2]

Unnamed: 0,ParticipacionesFederales
Baja California,19401000000
Baja California Sur,4809000000


##  5.2 Indexing dataframes   <a id='id2'> </a>

- Podemos modificar el valor del índice que se asignó por defecto
- Establecer una columna como índice, permite seleccionar más fácil un valor(es) a buscar
- Se establece un indice con el comando **set_index()**.
- **set_index()** es un proceso destructivo, no mantiene el índice actual (En versiones anteriores de Pandas). 
- Si quieres mantener el index actual, necesitas crear manualmente una nueva columna y copiar en ella los valores desde el atributo index.

In [15]:
# Volvemos a copiar el primer dataframe

Estado1 = pd.Series( {'Estado': 'Aguascalientes',
                    'AportacionesFederales': 10676000000,
                    'ParticipacionesFederales': 7158000000,
                    'RecaudacionImpuestos': 1232000000} )
Estado2 = pd.Series( {'Estado': 'Baja California',
                    'AportacionesFederales': 20518000000,
                    'ParticipacionesFederales': 19401000000,
                    'RecaudacionImpuestos': 4341000000} )
Estado3 = pd.Series( {'Estado': 'Baja California Sur',
                    'AportacionesFederales': 7173000000,
                    'ParticipacionesFederales': 4809000000,
                    'RecaudacionImpuestos': 1112000000} )
Estado4 = pd.Series( {'Estado': 'Campeche',
                    'AportacionesFederales': 8835000000,
                    'ParticipacionesFederales':  5628000000,
                    'RecaudacionImpuestos': 1663000000} )



In [16]:
# Observar que el indice es numérico y se generó automáticamente al crear el dataframe
#

Ingresos = pd.DataFrame( [Estado1, Estado2, Estado3, Estado4] )
Ingresos

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
0,Aguascalientes,10676000000,7158000000,1232000000
1,Baja California,20518000000,19401000000,4341000000
2,Baja California Sur,7173000000,4809000000,1112000000
3,Campeche,8835000000,5628000000,1663000000


In [17]:
# Podemos indicar la columna estado como índce para que sea más fácil las búsquedas

Ingresos = Ingresos.set_index('Estado')
Ingresos

Unnamed: 0_level_0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aguascalientes,10676000000,7158000000,1232000000
Baja California,20518000000,19401000000,4341000000
Baja California Sur,7173000000,4809000000,1112000000
Campeche,8835000000,5628000000,1663000000


In [18]:
Ingresos.loc['Campeche']

AportacionesFederales       8835000000
ParticipacionesFederales    5628000000
RecaudacionImpuestos        1663000000
Name: Campeche, dtype: int64

In [19]:
Ingresos.loc['Campeche', 'RecaudacionImpuestos']

1663000000

In [20]:
Ingresos.loc[ ['Campeche', 'Aguascalientes']]

Unnamed: 0_level_0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Campeche,8835000000,5628000000,1663000000
Aguascalientes,10676000000,7158000000,1232000000


##  Cambiar índice

In [21]:
medallero = pd.read_csv("MedallasOlimpiadas2020_10.csv")
medallero

Unnamed: 0,Posicion,Pais,Oro,Plata,Bronce,Total
0,1,Estados Unidos,39,41,33,113
1,2,China,38,32,18,88
2,3,Japón,27,14,17,58
3,4,Reino Unido,22,21,22,65
4,5,Rusia,20,28,23,71
5,6,Australia,17,7,22,46
6,7,los Países Bajos,10,12,14,36
7,8,Francia,10,12,11,33
8,9,Alemania,10,11,16,37
9,10,Italia,10,10,20,40


In [22]:
medallero.set_index("Pais")

Unnamed: 0_level_0,Posicion,Oro,Plata,Bronce,Total
Pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Estados Unidos,1,39,41,33,113
China,2,38,32,18,88
Japón,3,27,14,17,58
Reino Unido,4,22,21,22,65
Rusia,5,20,28,23,71
Australia,6,17,7,22,46
los Países Bajos,7,10,12,14,36
Francia,8,10,12,11,33
Alemania,9,10,11,16,37
Italia,10,10,10,20,40


In [23]:
medallero.set_index("Posicion")

Unnamed: 0_level_0,Pais,Oro,Plata,Bronce,Total
Posicion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Estados Unidos,39,41,33,113
2,China,38,32,18,88
3,Japón,27,14,17,58
4,Reino Unido,22,21,22,65
5,Rusia,20,28,23,71
6,Australia,17,7,22,46
7,los Países Bajos,10,12,14,36
8,Francia,10,12,11,33
9,Alemania,10,11,16,37
10,Italia,10,10,20,40


In [24]:
medallero.set_index("Total")

Unnamed: 0_level_0,Posicion,Pais,Oro,Plata,Bronce
Total,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
113,1,Estados Unidos,39,41,33
88,2,China,38,32,18
58,3,Japón,27,14,17
65,4,Reino Unido,22,21,22
71,5,Rusia,20,28,23
46,6,Australia,17,7,22
36,7,los Países Bajos,10,12,14
33,8,Francia,10,12,11
37,9,Alemania,10,11,16
40,10,Italia,10,10,20


In [25]:
medallero

# Notese que aunque establecimos el índice en diferentes columnas en las celdas anteriores,
# en realidad no se hace sobre el dataframe original como podemos observar si volvemos
# a llamar al medallero. 
# por lo tanto, en los casos anteriores el resultado fue una copia 

Unnamed: 0,Posicion,Pais,Oro,Plata,Bronce,Total
0,1,Estados Unidos,39,41,33,113
1,2,China,38,32,18,88
2,3,Japón,27,14,17,58
3,4,Reino Unido,22,21,22,65
4,5,Rusia,20,28,23,71
5,6,Australia,17,7,22,46
6,7,los Países Bajos,10,12,14,36
7,8,Francia,10,12,11,33
8,9,Alemania,10,11,16,37
9,10,Italia,10,10,20,40


In [26]:
# Para que surta el cambio de inmediato, debemos especificar el atributo inplace = True

medallero.set_index("Pais", inplace=True)

In [27]:
medallero

Unnamed: 0_level_0,Posicion,Oro,Plata,Bronce,Total
Pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Estados Unidos,1,39,41,33,113
China,2,38,32,18,88
Japón,3,27,14,17,58
Reino Unido,4,22,21,22,65
Rusia,5,20,28,23,71
Australia,6,17,7,22,46
los Países Bajos,7,10,12,14,36
Francia,8,10,12,11,33
Alemania,9,10,11,16,37
Italia,10,10,10,20,40


In [28]:
# Si reseteamos el indice, debemos colocar inplace = True
# Ver lo que pasa si no se especifica inplace

medallero.reset_index()

Unnamed: 0,Pais,Posicion,Oro,Plata,Bronce,Total
0,Estados Unidos,1,39,41,33,113
1,China,2,38,32,18,88
2,Japón,3,27,14,17,58
3,Reino Unido,4,22,21,22,65
4,Rusia,5,20,28,23,71
5,Australia,6,17,7,22,46
6,los Países Bajos,7,10,12,14,36
7,Francia,8,10,12,11,33
8,Alemania,9,10,11,16,37
9,Italia,10,10,10,20,40


In [29]:
# Ver lo que pasa si no se especifica inplace
medallero

Unnamed: 0_level_0,Posicion,Oro,Plata,Bronce,Total
Pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Estados Unidos,1,39,41,33,113
China,2,38,32,18,88
Japón,3,27,14,17,58
Reino Unido,4,22,21,22,65
Rusia,5,20,28,23,71
Australia,6,17,7,22,46
los Países Bajos,7,10,12,14,36
Francia,8,10,12,11,33
Alemania,9,10,11,16,37
Italia,10,10,10,20,40


In [30]:
# Ahora con inplace

medallero.reset_index(inplace = True)

In [31]:
medallero

Unnamed: 0,Pais,Posicion,Oro,Plata,Bronce,Total
0,Estados Unidos,1,39,41,33,113
1,China,2,38,32,18,88
2,Japón,3,27,14,17,58
3,Reino Unido,4,22,21,22,65
4,Rusia,5,20,28,23,71
5,Australia,6,17,7,22,46
6,los Países Bajos,7,10,12,14,36
7,Francia,8,10,12,11,33
8,Alemania,9,10,11,16,37
9,Italia,10,10,10,20,40


### Índices compuestos o jerárquicos

- Cuando se usan indices múltiples, debemos proporcionar los argumentos en orden por el nivel que desea consultar. 
- Dentro del indice, cada columna es llamada nivel y la columna más externa es el nivel cero. 

In [32]:
DiagnosticoIMCO = pd.read_csv("DiagnosticoIMCOcsv.csv")

DiagnosticoIMCO.head()

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos,Region
0,Aguascalientes,10676000000,7158000000,1232000000,Centro-Norte
1,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
2,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
3,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
4,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte


In [33]:
# Establecemos el indice por region y estado

DiagnosticoIMCO.set_index( ["Region","Estado"], inplace = True)

In [34]:
DiagnosticoIMCO

Unnamed: 0_level_0,Unnamed: 1_level_0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Region,Estado,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Norte,Aguascalientes,10676000000,7158000000,1232000000
Centro-Norte,Guanajuato,30265000000,29097000000,4373000000
Centro-Norte,Queretaro,12321000000,11162000000,2852000000
Centro-Norte,San Luis Potosi,20428000000,13656000000,1937000000
Centro-Norte,Zacatecas,14101000000,7903000000,1192000000
Centro-Sur,Ciudad de México,16205000000,68270000000,58800000000
Centro-Sur,Estado de México,77925000000,97088000000,21451000000
Centro-Sur,Morelos,12967000000,9668000000,632000000
Noreste,Coahuila,17367000000,15930000000,2753000000
Noreste,Nuevo León,24371000000,31371000000,10579000000


In [35]:
# Consultar por uno de los índices

DiagnosticoIMCO.loc[ "Centro-Norte"]

Unnamed: 0_level_0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aguascalientes,10676000000,7158000000,1232000000
Guanajuato,30265000000,29097000000,4373000000
Queretaro,12321000000,11162000000,2852000000
San Luis Potosi,20428000000,13656000000,1937000000
Zacatecas,14101000000,7903000000,1192000000


In [36]:
# Consultar un estado 

# Debido a que el indice es compuesto debemos especificar los 2 índices para poder
# acceder al valor

# Por ejemplo, si queremos ver las cifras del estado de aguscalientes, 

DiagnosticoIMCO.loc[ "Centro-Norte", "Aguascalientes"]

AportacionesFederales       10,676,000,000
ParticipacionesFederales     7,158,000,000
RecaudacionImpuestos         1,232,000,000
Name: (Centro-Norte, Aguascalientes), dtype: object

### Consultar en Índices compuestos o jerarquicos

- si queremos comparar los resultados de 2 Estados, debemos proporcionar una lista de tuplas que describen los índices que deseamos consultar. 
- Debido a que tenemos un indice multinivel de dos valores, La region y el estado, necesitamos proporcionar dos valores como cada elemento de nuestra lista de filtrado.

In [37]:
DiagnosticoIMCO.loc[[ ("Centro-Norte","Aguascalientes"), ("Centro-Norte","Zacatecas")]]

Unnamed: 0_level_0,Unnamed: 1_level_0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Region,Estado,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Norte,Aguascalientes,10676000000,7158000000,1232000000
Centro-Norte,Zacatecas,14101000000,7903000000,1192000000


In [38]:
DiagnosticoIMCO.loc[ [("Centro-Norte","Aguascalientes"), ("Oeste","Colima")] ]

Unnamed: 0_level_0,Unnamed: 1_level_0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Region,Estado,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Norte,Aguascalientes,10676000000,7158000000,1232000000
Oeste,Colima,6590000000,4248000000,841000000


In [39]:
# Dejamos todo como al inicio

DiagnosticoIMCO = pd.read_csv("DiagnosticoIMCOcsv.csv")

DiagnosticoIMCO.head()

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos,Region
0,Aguascalientes,10676000000,7158000000,1232000000,Centro-Norte
1,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
2,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
3,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
4,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte


## 5.3 Transpuesta de un dataframe   <a id='id3'> </a> 

- Refleja el DataFrame escribiendo filas como columnas y viceversa. 

In [40]:
# Verificamos el dataframe Ingresos
Ingresos

Unnamed: 0_level_0,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aguascalientes,10676000000,7158000000,1232000000
Baja California,20518000000,19401000000,4341000000
Baja California Sur,7173000000,4809000000,1112000000
Campeche,8835000000,5628000000,1663000000


In [41]:
# Antes de aplicar la transpuesta debemos volver al indice por defecto

# El inplace=True hace el cambio en el propio DataFrame original. 
# Si utilizamos drop=False, el índice inicial se coloca como una columna en el DataFrame
# Esto se hace para no perder los valores del indice
# después de utilizar el método reset_index()

Ingresos.reset_index(inplace=True, drop=False)
Ingresos

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
0,Aguascalientes,10676000000,7158000000,1232000000
1,Baja California,20518000000,19401000000,4341000000
2,Baja California Sur,7173000000,4809000000,1112000000
3,Campeche,8835000000,5628000000,1663000000


In [42]:
# Se puede usar cualquiera de las 2 formas siguientes:

# Ingresos.T
Ingresos.transpose()

Unnamed: 0,0,1,2,3
Estado,Aguascalientes,Baja California,Baja California Sur,Campeche
AportacionesFederales,10676000000,20518000000,7173000000,8835000000
ParticipacionesFederales,7158000000,19401000000,4809000000,5628000000
RecaudacionImpuestos,1232000000,4341000000,1112000000,1663000000


In [43]:
# La instruccion anterior no modifica el dataframe, a no ser que lo asignemos a la misma
# variable

Ingresos

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
0,Aguascalientes,10676000000,7158000000,1232000000
1,Baja California,20518000000,19401000000,4341000000
2,Baja California Sur,7173000000,4809000000,1112000000
3,Campeche,8835000000,5628000000,1663000000


In [44]:
Ingresos2 = Ingresos.T
Ingresos2

Unnamed: 0,0,1,2,3
Estado,Aguascalientes,Baja California,Baja California Sur,Campeche
AportacionesFederales,10676000000,20518000000,7173000000,8835000000
ParticipacionesFederales,7158000000,19401000000,4809000000,5628000000
RecaudacionImpuestos,1232000000,4341000000,1112000000,1663000000


In [45]:
Ingresos2[0:2]

Unnamed: 0,0,1,2,3
Estado,Aguascalientes,Baja California,Baja California Sur,Campeche
AportacionesFederales,10676000000,20518000000,7173000000,8835000000


In [46]:
Ingresos2[0:3 ]

Unnamed: 0,0,1,2,3
Estado,Aguascalientes,Baja California,Baja California Sur,Campeche
AportacionesFederales,10676000000,20518000000,7173000000,8835000000
ParticipacionesFederales,7158000000,19401000000,4809000000,5628000000


In [47]:
#

Ingresos2.loc[["Estado","AportacionesFederales",], 1:2]

Unnamed: 0,1,2
Estado,Baja California,Baja California Sur
AportacionesFederales,20518000000,7173000000


In [48]:
Ingresos2.index

Index(['Estado', 'AportacionesFederales', 'ParticipacionesFederales',
       'RecaudacionImpuestos'],
      dtype='object')

In [49]:
Ingresos2.columns

RangeIndex(start=0, stop=4, step=1)

In [50]:
Ingresos2.info

<bound method DataFrame.info of                                        0                1  \
Estado                    Aguascalientes  Baja California   
AportacionesFederales        10676000000      20518000000   
ParticipacionesFederales      7158000000      19401000000   
RecaudacionImpuestos          1232000000       4341000000   

                                            2           3  
Estado                    Baja California Sur    Campeche  
AportacionesFederales              7173000000  8835000000  
ParticipacionesFederales           4809000000  5628000000  
RecaudacionImpuestos               1112000000  1663000000  >

##  5.4 Copiar un dataframe   <a id='id4'> </a> 

> **DataFrame.copy(deep=True)**

- **copy** Hace una copia de los índices y datos de este objeto.

- Cuando **deep=True** (predeterminado), se **creará un nuevo objeto con una copia de los datos e índices del objeto que llama**. Las modificaciones a los datos o índices de la copia no se reflejarán en el objeto original (ver notas a continuación).

- Cuando **deep=False**, se creará un **nuevo objeto sin copiar los datos o el índice** del objeto que llama (solo se copian las referencias a los datos y el índice). Cualquier cambio en los datos del original se reflejará en la copia superficial (y viceversa).

In [51]:
Ingresos

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
0,Aguascalientes,10676000000,7158000000,1232000000
1,Baja California,20518000000,19401000000,4341000000
2,Baja California Sur,7173000000,4809000000,1112000000
3,Campeche,8835000000,5628000000,1663000000


In [52]:
IngresosCopia = Ingresos.copy()
IngresosCopia

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos
0,Aguascalientes,10676000000,7158000000,1232000000
1,Baja California,20518000000,19401000000,4341000000
2,Baja California Sur,7173000000,4809000000,1112000000
3,Campeche,8835000000,5628000000,1663000000


##   5.5 Cargar CSV como un dataframe  <a id='id5'> </a> 

- Lea un archivo de valores separados por comas (csv) en DataFrame. 
- También admite, opcionalmente, iterar o dividir el archivo en fragmentos.

In [53]:
df = pd.read_csv("20-07-31-COVID19MEXICO-codificado.csv")
df

  df = pd.read_csv("20-07-31-COVID19MEXICO-codificado.csv")


Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,31/07/2020,15f43a,2,4,2,Mujer,No especificado,2,4,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,El Salvador,99,No aplica
1,31/07/2020,0d6511,2,4,11,Hombre,No especificado,11,20,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,Estados Unidos de AmÃ©rica,99,No aplica
2,31/07/2020,0baff6,2,9,9,Mujer,No especificado,9,16,Ambulatorio,...,No,No,No,No,Si,Positivo,99,Brasil,99,No aplica
3,31/07/2020,1b5b75,2,9,9,Mujer,No especificado,15,37,Ambulatorio,...,Si,No,No,No,No,Positivo,99,EspaÃ±a,99,No aplica
4,31/07/2020,120290,2,9,15,Mujer,No especificado,15,37,Ambulatorio,...,No,No,No,No,No,Positivo,2,Argentina,99,No aplica
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
984283,31/07/2020,0fff21,1,4,32,Mujer,Zacatecas,32,42,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No
984284,31/07/2020,118a72,2,12,10,Mujer,Zacatecas,10,5,Hospitalizado,...,No,No,No,No,Si,Pendiente,99,MÃ©xico,99,No
984285,31/07/2020,09010e,1,12,32,Mujer,Zacatecas,32,56,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,Si
984286,31/07/2020,1d5f85,1,12,14,Hombre,Zacatecas,14,39,Hospitalizado,...,No,Si,No,No,No,Pendiente,99,MÃ©xico,99,Si


### Tipo de Datos

- Los datos se encuentran en una variedad de tipos.
- Los tipos principales almacenados en dataframes de Pandas son <b>object</b>, <b>float</b>, <b>int</b>, <b>bool</b> y <b>datetime64</b>. 
- Para aprender mejor acerca de cada atributo es mejor para nosotros saber el tipo de dato de cada columna. 
- En Pandas, podemos usar el atributo **df.dtypes**.


In [54]:
df.dtypes

FECHA_ACTUALIZACION    object
ID_REGISTRO            object
ORIGEN                  int64
SECTOR                  int64
ENTIDAD_UM              int64
SEXO                   object
ENTIDAD_NAC            object
ENTIDAD_RES             int64
MUNICIPIO_RES           int64
TIPO_PACIENTE          object
FECHA_INGRESO          object
FECHA_SINTOMAS         object
FECHA_DEF              object
INTUBADO               object
NEUMONIA               object
EDAD                    int64
NACIONALIDAD            int64
EMBARAZO               object
HABLA_LENGUA_INDIG     object
DIABETES               object
EPOC                   object
ASMA                   object
INMUSUPR               object
HIPERTENSION           object
OTRA_COM               object
CARDIOVASCULAR         object
OBESIDAD               object
RENAL_CRONICA          object
TABAQUISMO             object
OTRO_CASO              object
RESULTADO              object
MIGRANTE                int64
PAIS_NACIONALIDAD      object
PAIS_ORIGE

### Info (método)

- Otro método que puede usar para revisar el dataframe es:
- Este método imprime información sobre un DataFrame, incluido el tipo de índice y las columnas, los valores no nulos y el uso de la memoria.


In [55]:
df.info

<bound method DataFrame.info of        FECHA_ACTUALIZACION ID_REGISTRO  ORIGEN  SECTOR  ENTIDAD_UM    SEXO  \
0               31/07/2020      15f43a       2       4           2   Mujer   
1               31/07/2020      0d6511       2       4          11  Hombre   
2               31/07/2020      0baff6       2       9           9   Mujer   
3               31/07/2020      1b5b75       2       9           9   Mujer   
4               31/07/2020      120290       2       9          15   Mujer   
...                    ...         ...     ...     ...         ...     ...   
984283          31/07/2020      0fff21       1       4          32   Mujer   
984284          31/07/2020      118a72       2      12          10   Mujer   
984285          31/07/2020      09010e       1      12          32   Mujer   
984286          31/07/2020      1d5f85       1      12          14  Hombre   
984287          31/07/2020      17ecb4       1       4           1  Hombre   

            ENTIDAD_NAC  ENTIDA

### Métodos head() y tail()

Después de leer el conjunto de datos podemos utilizar los siguientes 2 métodos:

- **head(n)** para revisar las primeras n filas del dataframe; donde n es u entero. 
- **tail(n)** mostrará las n filas del final del dataframe.

In [56]:
# Mostrar los primeros 5 renglones
df.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,31/07/2020,15f43a,2,4,2,Mujer,No especificado,2,4,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,El Salvador,99,No aplica
1,31/07/2020,0d6511,2,4,11,Hombre,No especificado,11,20,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,Estados Unidos de AmÃ©rica,99,No aplica
2,31/07/2020,0baff6,2,9,9,Mujer,No especificado,9,16,Ambulatorio,...,No,No,No,No,Si,Positivo,99,Brasil,99,No aplica
3,31/07/2020,1b5b75,2,9,9,Mujer,No especificado,15,37,Ambulatorio,...,Si,No,No,No,No,Positivo,99,EspaÃ±a,99,No aplica
4,31/07/2020,120290,2,9,15,Mujer,No especificado,15,37,Ambulatorio,...,No,No,No,No,No,Positivo,2,Argentina,99,No aplica


In [57]:
# Mostrar los últimos  5 renglones
df.tail()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
984283,31/07/2020,0fff21,1,4,32,Mujer,Zacatecas,32,42,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No
984284,31/07/2020,118a72,2,12,10,Mujer,Zacatecas,10,5,Hospitalizado,...,No,No,No,No,Si,Pendiente,99,MÃ©xico,99,No
984285,31/07/2020,09010e,1,12,32,Mujer,Zacatecas,32,56,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,Si
984286,31/07/2020,1d5f85,1,12,14,Hombre,Zacatecas,14,39,Hospitalizado,...,No,Si,No,No,No,Pendiente,99,MÃ©xico,99,Si
984287,31/07/2020,17ecb4,1,4,1,Hombre,Zacatecas,1,1,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No


In [58]:
# Solo en caso de que no reconozca la primer fila como encabezados

# df = pd.read_csv('20-07-31-COVID19MEXICO-codificado.csv', index_col = 0, skiprows=1)
# df.head()

In [59]:
##   shape   Devuelve una tupla que representa la dimensionalidad del DataFrame

df.shape

(984288, 35)

### 5.5.1  Añadir encabezados a dataframe <a id='id51'> </a> 

In [60]:
DiagnosticoIMCO_NoHeaders = pd.read_csv("DiagnosticoIMCO_NoHeaders.csv")
DiagnosticoIMCO_NoHeaders.head()

Unnamed: 0,Aguascalientes,"10,676,000,000","7,158,000,000","1,232,000,000",Centro-Norte
0,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
1,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
2,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
3,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte
4,Ciudad de México,16205000000,68270000000,58800000000,Centro-Sur


In [61]:
# crear la lista headers 

encabezados = ["Estado", "AportacionesFederales", "ParticipacionesFederales",
           "RecaudacionImpuestos", "Region" ]


print(encabezados)

['Estado', 'AportacionesFederales', 'ParticipacionesFederales', 'RecaudacionImpuestos', 'Region']


In [62]:
#  Opcion 1, especificar los encabezados al abrir e archivo
# https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

DiagnosticoIMCO_NoHeaders = pd.read_csv("DiagnosticoIMCO_NoHeaders.csv", names=encabezados)
DiagnosticoIMCO_NoHeaders.head()

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos,Region
0,Aguascalientes,10676000000,7158000000,1232000000,Centro-Norte
1,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
2,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
3,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
4,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte


In [63]:
# opcion 2, especificar encabezados despues de abrir el archivo

DiagnosticoIMCO_NoHeaders = pd.read_csv("DiagnosticoIMCO_NoHeaders.csv", header = None)
DiagnosticoIMCO_NoHeaders.head()

Unnamed: 0,0,1,2,3,4
0,Aguascalientes,10676000000,7158000000,1232000000,Centro-Norte
1,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
2,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
3,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
4,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte


In [64]:
DiagnosticoIMCO_NoHeaders.columns = encabezados

DiagnosticoIMCO_NoHeaders.head()

Unnamed: 0,Estado,AportacionesFederales,ParticipacionesFederales,RecaudacionImpuestos,Region
0,Aguascalientes,10676000000,7158000000,1232000000,Centro-Norte
1,Guanajuato,30265000000,29097000000,4373000000,Centro-Norte
2,Queretaro,12321000000,11162000000,2852000000,Centro-Norte
3,San Luis Potosi,20428000000,13656000000,1937000000,Centro-Norte
4,Zacatecas,14101000000,7903000000,1192000000,Centro-Norte


## 5.6 Consultas en un dataframe  <a id='id6'> </a> 

- Las consultas en dataframes se realizan usando el **enmascaramiento booleano**. 
- El enmascaramiento booleano provoca que las consultas sean más rápidas y eficientes en Numpy.
- Una **máscara booleana es una matriz que puede ser de una dimensión** (una series) , o **dos dimensiones (dataframe)**, donde cada uno de los valores de la matriz es verdadero o falso. 
- Esta **matriz se superpone** esencialmente **sobre la estructura de datos** que estamos consultando, y **cualquier celda alineada con el valor verdadero sera admitida en nuestro resultado final, y cualquier signo alineado con un valor falso no sera admitido**.
- El enmascaramiento booleano es poderoso conceptualmente y es la piedra angular de las consultas eficientes de NumPy y Pandas.
- Las máscaras booleanas se crean aplicando operadores directamente a la serie de pandas o objetos dataframe.


In [65]:
# Consultar el dataframe por sexo

# La series resultante es indexada donde el valor de cada celda es ya sea verdadero o 
# falso, dependiendo de si el sexo de la persona es mujer o no

# El enmascaramiento en este caso lo vemos en True los que si cumplen la condicion y False
# Los que no cumplen el criterio. 

df['SEXO'] == "Mujer"

0          True
1         False
2          True
3          True
4          True
          ...  
984283     True
984284     True
984285     True
984286    False
984287    False
Name: SEXO, Length: 984288, dtype: bool

In [66]:
# Limitar con el método head() a los primeros 10 registros del dataframe

df['SEXO'].head(10) == "Mujer"


0     True
1    False
2     True
3     True
4     True
5    False
6    False
7     True
8    False
9    False
Name: SEXO, dtype: bool

### La funcion where

- La función **where toma una mascara booleana como una condición, lo aplica al dataframe** o a la series, y **retorna una nuevo dataframe** o series de la misma forma. 



In [67]:
# Como ya se dijo, La función where toma una mascara booleana como una condición, 
# lo aplica al dataframe, y retorna una nuevo dataframe de la misma forma. 
# Apliquemos esta máscara booleana a los datos y creamos un dataframe de solo
# aquellas personas del sexo "Mujer"

# En el resultado podemos ver el enmascaramiento. Los que no cumplieron la condicion
# se enmascaran como un valor  NaN
# NaN, proviene del acrónimo en inglés «Not a Number» (en español: no es un número)



mujeres =df.where(df['SEXO'] == "Mujer" )
mujeres

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,31/07/2020,15f43a,2.0,4.0,2.0,Mujer,No especificado,2.0,4.0,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99.0,El Salvador,99,No aplica
1,,,,,,,,,,,...,,,,,,,,,,
2,31/07/2020,0baff6,2.0,9.0,9.0,Mujer,No especificado,9.0,16.0,Ambulatorio,...,No,No,No,No,Si,Positivo,99.0,Brasil,99,No aplica
3,31/07/2020,1b5b75,2.0,9.0,9.0,Mujer,No especificado,15.0,37.0,Ambulatorio,...,Si,No,No,No,No,Positivo,99.0,EspaÃ±a,99,No aplica
4,31/07/2020,120290,2.0,9.0,15.0,Mujer,No especificado,15.0,37.0,Ambulatorio,...,No,No,No,No,No,Positivo,2.0,Argentina,99,No aplica
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
984283,31/07/2020,0fff21,1.0,4.0,32.0,Mujer,Zacatecas,32.0,42.0,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99.0,MÃ©xico,99,No
984284,31/07/2020,118a72,2.0,12.0,10.0,Mujer,Zacatecas,10.0,5.0,Hospitalizado,...,No,No,No,No,Si,Pendiente,99.0,MÃ©xico,99,No
984285,31/07/2020,09010e,1.0,12.0,32.0,Mujer,Zacatecas,32.0,56.0,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99.0,MÃ©xico,99,Si
984286,,,,,,,,,,,...,,,,,,,,,,


In [68]:
# La mayoría de las funciones estadísticas integradas en el objeto dataframe 
# ignoran los valores de NaN,  por eso al ejecutar una consulta a modo de
# comprobacion con el metodo count,  observamos que los NaN no forman parte de la funcion
# estadistica aplicada.

mujeres["SEXO"].count()

493097

In [69]:
# Enseguida podemos eliminar esas filas que no tienen datos. 
# Para hacer esto, podemos usar la función dropna(). 

# Dropna se puede especificar con el atributo axis si se quiere eliminar el renglon o
# la columna. Por defecto es el renglon, por lo tanto no es necesario especificarlo

# Y con esto quedaria unicamente la informacion necesaria

mujeres = mujeres.dropna()
mujeres

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,31/07/2020,15f43a,2.0,4.0,2.0,Mujer,No especificado,2.0,4.0,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99.0,El Salvador,99,No aplica
2,31/07/2020,0baff6,2.0,9.0,9.0,Mujer,No especificado,9.0,16.0,Ambulatorio,...,No,No,No,No,Si,Positivo,99.0,Brasil,99,No aplica
3,31/07/2020,1b5b75,2.0,9.0,9.0,Mujer,No especificado,15.0,37.0,Ambulatorio,...,Si,No,No,No,No,Positivo,99.0,EspaÃ±a,99,No aplica
4,31/07/2020,120290,2.0,9.0,15.0,Mujer,No especificado,15.0,37.0,Ambulatorio,...,No,No,No,No,No,Positivo,2.0,Argentina,99,No aplica
7,31/07/2020,07cd25,2.0,9.0,30.0,Mujer,No especificado,30.0,68.0,Ambulatorio,...,No,No,No,No,No,Positivo,2.0,Colombia,99,No aplica
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
984281,31/07/2020,147d41,1.0,4.0,32.0,Mujer,Zacatecas,32.0,10.0,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99.0,MÃ©xico,99,No
984282,31/07/2020,11b486,2.0,4.0,14.0,Mujer,Zacatecas,14.0,98.0,Hospitalizado,...,No,No,No,Si,No especificado,Pendiente,99.0,MÃ©xico,99,No
984283,31/07/2020,0fff21,1.0,4.0,32.0,Mujer,Zacatecas,32.0,42.0,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99.0,MÃ©xico,99,No
984284,31/07/2020,118a72,2.0,12.0,10.0,Mujer,Zacatecas,10.0,5.0,Hospitalizado,...,No,No,No,No,Si,Pendiente,99.0,MÃ©xico,99,No


### Atajo más rápido para consultas o método abreviado

- Actualmente **no tenemos que usar la función where explícitamente**. 
- pandas permite al operador de indexación tomar una mascara booleana como un valor en lugar de solo una lista de nombres de columnas. 
- **La sintaxis puede parecer un poco desordenada**, especialmente si no estás acostumbrado a programar lenguajes con operadores sobrecargados, pero el resultado es que puede filtrar y reducir los dataframes con relativa rapidez.
- Aquí se prsentará un ejemplo más conciso de cómo podríamos consultar este dataframe. 
- Notará que **no hay NaNs cuando consulta el dataframe de esta manera. pandas automáticamente filtra las salidas de las filas con valores**. 

In [70]:
#  Version con where 
# mujeres =df.where(df['SEXO'] == "Mujer" )

# Version simplificada
mujeres2 = df[ df['SEXO'] == "Mujer" ]
mujeres2

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,31/07/2020,15f43a,2,4,2,Mujer,No especificado,2,4,Ambulatorio,...,No,No,No,No,No especificado,Positivo,99,El Salvador,99,No aplica
2,31/07/2020,0baff6,2,9,9,Mujer,No especificado,9,16,Ambulatorio,...,No,No,No,No,Si,Positivo,99,Brasil,99,No aplica
3,31/07/2020,1b5b75,2,9,9,Mujer,No especificado,15,37,Ambulatorio,...,Si,No,No,No,No,Positivo,99,EspaÃ±a,99,No aplica
4,31/07/2020,120290,2,9,15,Mujer,No especificado,15,37,Ambulatorio,...,No,No,No,No,No,Positivo,2,Argentina,99,No aplica
7,31/07/2020,07cd25,2,9,30,Mujer,No especificado,30,68,Ambulatorio,...,No,No,No,No,No,Positivo,2,Colombia,99,No aplica
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
984281,31/07/2020,147d41,1,4,32,Mujer,Zacatecas,32,10,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No
984282,31/07/2020,11b486,2,4,14,Mujer,Zacatecas,14,98,Hospitalizado,...,No,No,No,Si,No especificado,Pendiente,99,MÃ©xico,99,No
984283,31/07/2020,0fff21,1,4,32,Mujer,Zacatecas,32,42,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No
984284,31/07/2020,118a72,2,12,10,Mujer,Zacatecas,10,5,Hospitalizado,...,No,No,No,No,Si,Pendiente,99,MÃ©xico,99,No


### Condiciones mas complejas usando los operadores lógicos AND y OR


- Operador **AND**  &  (Todas las condiciones unidas por un AND se deben cumplir)
- Operador **OR**   | (Cualquiera de las condiciones unidas por un OR se deben cumplir)

In [71]:
# Aqui estamos creando un nuevo dataframe (PruebasDgo a partir de una consulta)
# Con los criterios:  Que sea de Durango y que esté hospitalizado 

PruebasDgo = df[ ( df['ENTIDAD_NAC'] == "Durango") & 
                ( df['TIPO_PACIENTE'] == "Hospitalizado") ]
PruebasDgo

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
845591,31/07/2020,0bdf07,2,3,25,Hombre,Durango,25,6,Hospitalizado,...,No,Si,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845592,31/07/2020,0b99e5,2,4,9,Mujer,Durango,15,58,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845593,31/07/2020,19c52b,2,4,2,Hombre,Durango,2,4,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845594,31/07/2020,0c2d53,2,4,8,Mujer,Durango,8,37,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845595,31/07/2020,108217,2,4,2,Hombre,Durango,2,2,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
847938,31/07/2020,1a48f4,1,4,10,Mujer,Durango,10,5,Hospitalizado,...,No,Si,No,No,No especificado,Pendiente,99,MÃ©xico,99,No
847939,31/07/2020,0644ae,1,12,8,Mujer,Durango,10,11,Hospitalizado,...,Si,No,No,No,No,Pendiente,99,MÃ©xico,99,No
847940,31/07/2020,0a650c,1,4,8,Hombre,Durango,8,37,Hospitalizado,...,No,No,No,No,No especificado,Pendiente,99,MÃ©xico,99,No
847941,31/07/2020,134728,2,9,8,Mujer,Durango,8,37,Hospitalizado,...,No,No,No,No,Si,Pendiente,99,MÃ©xico,99,Si


In [72]:
# Que sea de Durango, que esté hospitalizado y sea positivo a la prueba del COVID

PruebasDgo = df[ ( df['ENTIDAD_NAC'] == "Durango") &
                ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo") ]
PruebasDgo


Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
845591,31/07/2020,0bdf07,2,3,25,Hombre,Durango,25,6,Hospitalizado,...,No,Si,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845592,31/07/2020,0b99e5,2,4,9,Mujer,Durango,15,58,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845593,31/07/2020,19c52b,2,4,2,Hombre,Durango,2,4,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845594,31/07/2020,0c2d53,2,4,8,Mujer,Durango,8,37,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845595,31/07/2020,108217,2,4,2,Hombre,Durango,2,2,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
847592,31/07/2020,1d09e5,1,4,10,Hombre,Durango,10,7,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
847593,31/07/2020,0bb65a,2,4,10,Hombre,Durango,10,7,Hospitalizado,...,No,Si,No,No,No especificado,Positivo,99,MÃ©xico,99,No
847594,31/07/2020,0199c0,1,12,2,Hombre,Durango,2,2,Hospitalizado,...,No,No,No,No,Si,Positivo,99,MÃ©xico,99,No
847595,31/07/2020,0cfa6a,2,4,5,Mujer,Durango,10,7,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No


In [77]:
# juntando AND y Or

# Que sea de Durango, que esté hospitalizado y sea positivo a la prueba del COVID ó que sea
# de Durango, que esté hospitalizado y sea positivo

PruebasDgo = df[ ( ( df['ENTIDAD_NAC'] == "Durango") & ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo"))  | 
                
                ( df['ENTIDAD_NAC'] == "Zacatecas") & ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo") ]
PruebasDgo

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
845591,31/07/2020,0bdf07,2,3,25,Hombre,Durango,25,6,Hospitalizado,...,No,Si,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845592,31/07/2020,0b99e5,2,4,9,Mujer,Durango,15,58,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845593,31/07/2020,19c52b,2,4,2,Hombre,Durango,2,4,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845594,31/07/2020,0c2d53,2,4,8,Mujer,Durango,8,37,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845595,31/07/2020,108217,2,4,2,Hombre,Durango,2,2,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
983946,31/07/2020,1727d9,1,12,2,Mujer,Zacatecas,2,2,Hospitalizado,...,No,No,No,No,Si,Positivo,99,MÃ©xico,99,No
983947,31/07/2020,01cff9,1,12,32,Hombre,Zacatecas,32,10,Hospitalizado,...,No,No,No,No,No,Positivo,99,MÃ©xico,99,No
983948,31/07/2020,1d5ece,1,4,32,Hombre,Zacatecas,32,17,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
983949,31/07/2020,087bbf,2,4,14,Hombre,Zacatecas,14,120,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No


In [78]:
# Otra forma de hacerlo 8 Primero el OR y lo ponemos entre paréntesis

PruebasDgo = df[ ( ( df['ENTIDAD_NAC'] == "Durango") | 
                  ( df['ENTIDAD_NAC'] == "Zacatecas") ) &
                
                  ( df['TIPO_PACIENTE'] == "Hospitalizado") &
             ( df['RESULTADO'] == "Positivo") ]
PruebasDgo

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
845591,31/07/2020,0bdf07,2,3,25,Hombre,Durango,25,6,Hospitalizado,...,No,Si,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845592,31/07/2020,0b99e5,2,4,9,Mujer,Durango,15,58,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845593,31/07/2020,19c52b,2,4,2,Hombre,Durango,2,4,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845594,31/07/2020,0c2d53,2,4,8,Mujer,Durango,8,37,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
845595,31/07/2020,108217,2,4,2,Hombre,Durango,2,2,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
983946,31/07/2020,1727d9,1,12,2,Mujer,Zacatecas,2,2,Hospitalizado,...,No,No,No,No,Si,Positivo,99,MÃ©xico,99,No
983947,31/07/2020,01cff9,1,12,32,Hombre,Zacatecas,32,10,Hospitalizado,...,No,No,No,No,No,Positivo,99,MÃ©xico,99,No
983948,31/07/2020,1d5ece,1,4,32,Hombre,Zacatecas,32,17,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No
983949,31/07/2020,087bbf,2,4,14,Hombre,Zacatecas,14,120,Hospitalizado,...,No,No,No,No,No especificado,Positivo,99,MÃ©xico,99,No


### 5.6.1  Obtener los Valores Unicos de una columna en un dataframe <a id='id61'> </a> 

In [73]:
#  Equivalente al distinct de SQL

df['ENTIDAD_NAC'].unique()

array(['No especificado', 'Aguascalientes', 'Baja California',
       'Baja California Sur', 'Campeche', 'Chiapas', 'Chihuahua',
       'Ciudad de México', 'Coahuila', 'Colima', 'Durango', 'Guanajuato',
       'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacan', 'Morelos',
       'Nayarit', 'Nuevo León', 'Oaxaca', 'Puebla', 'Queretaro',
       'Quintana Roo', 'San Luis Potosí', 'Sinaloa', 'Sonora', 'Tabasco',
       'Tamaulipas', 'Tlaxcala', 'Veracruz', 'Yucatan', 'Zacatecas'],
      dtype=object)

In [74]:
df['RESULTADO'].unique()

array(['Positivo', 'Negativo', 'Pendiente'], dtype=object)

### 5.6.2 Medir el espacio en memoria que ocupa el dataframe  <a id='id62'> </a>



In [75]:
import sys
print(sys.getsizeof(df))      ## 1,733,346,211   

1733346211


In [76]:
# Megabyte es el equivalente a 1024 kilobytes o 1,048,576 bytes

megas = 1733346211 / 1048576
megas

1653.0477628707886

### 5.6.3 Ejercicios de consultas en el dataframe  <a id='id63'> </a>

1. Consultar en el dataframe COVID los que son de Campeche y son Positivos
2. Consultar en el dataframe COVID los que son de Aguascalientes y están hospitalizados
3. Consultar en el dataframe COVID los que son de Durango, Son positivos, tienen Obesidad, tienen diabetes y tienen hipertension
4. Consultar en el dataframe COVID los que son de Colima o de Morelos y que son positivos