[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/4_pandas_exploracion.ipynb)

# Propedéutico a programación con Python.

**Verano 2023, por el Centro de Ciencia de Datos, EGobiernoyTP.**

### Sesión 4: Exploración de bases de datos (pandas 1)

1. Generalidades de bases de datos
    - ¿Cuántas variables y observaciones tenemos?
    - Diccionario de variables
    - Explorando más
2. Tipos de datos en db
    - Cambiar tipos de datos
        - str
        - float
        - int
        - datetime
3. Variables categóricas
4. Variables numéricas
5. Variables temporales
6. NA's
    - Drop
    - Replace
7. Subconjuntos de bases
    - Quitar columnas
    - Seleccionar subconjuntos de la base
    - Seleccionar subconjuntos basados en condiciones
8. Reset index


In [2]:
# Paquetes
import numpy as np
import pandas as pd

### Algunas líneas de set-up útiles

**Para ver 200 filas en el notebook**

In [7]:
pd.set_option('display.max_rows', 200)

**Para ver 10 columnas en el notebook**

In [4]:
pd.set_option('display.max_columns', 10)

## 1. Generalidades de bases de datos

In [5]:
# Datos
df = pd.read_csv('../datos/indicadores.csv', dtype='str')

In [6]:
df

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
0,1,1950.0,República Mexicana,0.0,771494.0,...,120.64,129.85,149.49,6.57,2020-05-23
1,2,1951.0,República Mexicana,0.0,797550.0,...,121.47,130.87,152.02,6.66,2020-11-11
2,3,1952.0,República Mexicana,0.0,867222.0,...,113.15,122.02,153.13,6.72,2021-10-24
3,4,1953.0,República Mexicana,0.0,882943.0,...,117.92,127.28,154.67,6.78,2021-02-16
4,5,1954.0,República Mexicana,0.0,974839.0,...,103.49,111.81,154.93,6.77,2018-07-24
...,...,...,...,...,...,...,...,...,...,...,...
2688,2689,2046.0,Zacatecas,32.0,10394.0,...,5.17,5.77,61.18,1.91,2017-10-10
2689,2690,2047.0,Zacatecas,32.0,9948.0,...,4.98,5.56,60.89,1.9,2020-01-28
2690,2691,2048.0,Zacatecas,32.0,9504.0,...,4.8,5.35,60.6,1.89,2022-02-10
2691,2692,2049.0,Zacatecas,32.0,9045.0,...,4.62,5.15,60.38,1.88,2022-04-13


### 1.1 ¿Cuántas variables y observaciones tenemos?

In [8]:
df.shape

(2693, 65)

In [9]:
# Renglones
df.shape[0]

2693

In [10]:
# Columnas
df.shape[1]

65

In [11]:
# Nombre de columnas
df.columns

Index(['renglon', 'año', 'entidad', 'cve_geo', 'cre_nat', 'cre_soc', 'cre_tot',
       'def', 'edad_med', 'emi_est', 'emi_int', 'evh', 'evm', 'ev',
       'hom_mit_año', 'ind_env', 'inm_est', 'inm_int', 'mig_net_est',
       'mig_net_int', 'muj_mit_año', 'nac', 'pob_mit_año', 'muj_12_14',
       'muj_15_29', 'muj_15_49', 'muj_18_24', 'muj_3_5', 'muj_30_64',
       'muj_6_11', 'muj_65_mas', 'hom_12_14', 'hom_15_29', 'hom_15_49',
       'hom_18_24', 'hom_3_5', 'hom_30_64', 'hom_6_11', 'hom_65_mas',
       'pob_12_14', 'pob_15_29', 'pob_15_49', 'pob_18_24', 'pob_3_5',
       'pob_30_64', 'pob_6_11', 'pob_65_mas', 'raz_dep_adu', 'raz_dep_inf',
       'raz_dep', 't_bru_mor', 't_bru_nat', 't_cre_nat', 't_cre_soc',
       't_cre_tot', 't_emi_est', 't_inm_est', 't_mig_net_est', 't_mig_net_int',
       'tmih', 'tmim', 'tmi', 'tef_ado', 'tgf', 'fecha_reg'],
      dtype='object')

### 1.2 Diccionario de variables

Con cada base de datos con la que trabajes DEBES tener el significado de cada variable para poder trabajar adecuadamente. 

Pregunta a ustedes: ¿por qué?

A continuación el diccionario de la base con la que estaremos mostrando pandas.

1. `renglon`
2. `año`
3. `entidad`
4. `cve_geo`
5. `cre_nat` = Crecimiento natural
6. `cre_soc` = Crecimiento social
7. `cre_tot` = Crecimiento total
8. `def` = Defunciones
9. `edad_med` = Edad Mediana
10. `emi_est` = Emigrantes interestatales
11. `emi_int` = Emigrantes internacionales
12. `evh` = Esperanza de vida al nacimiento de hombres
13. `evm` = Esperanza de vida al nacimiento de mujeres
14. `ev` = Esperanza de vida al nacimiento total
15. `hom_mit_año` = Hombres mitad de año
16. `ind_env` = Índice de Envejecimiento
17. `inm_est` = Inmigrantes interestatales
18. `inm_int` = Inmigrantes internacionales
19. `mig_net_est` = Migración neta interestatal
20. `mig_net_int` = Migración neta internacional
21. `muj_mit_año` = Mujeres mitad de año
22. `nac` = Nacimientos
23. `pob_mit_año` = Población mitad de año
24. `muj_12_14` = Mujeres edad entre 12 y 14
25. `muj_15_29` = Mujeres edad entre 15 y 29
26. `muj_15_49` = Mujeres edad entre 15 y 49
27. `muj_18_24` = Mujeres edad entre 18 y 24
28. `muj_3_5` = Mujeres edad entre 3 y 5
29. `muj_30_64` = Mujeres edad entre 30 y 64
30. `muj_6_11` = Mujeres edad entre 6 y 11
31. `muj_65_mas` = Mujeres de 65 años y más
32. `hom_12_14` = Hombres edad entre 12 y 14
33. `hom_15_29` = Hombres edad entre 15 y 29
34. `hom_15_49` = Hombres edad entre 15 y 49
35. `hom_18_24` = Hombres edad entre 18 y 24
36. `hom_3_5` = Hombres edad entre 3 y 5
37. `hom_30_64` = Hombres edad entre 30 y 64
38. `hom_6_11` = Hombres edad entre 6 y 11
39. `hom_65_mas` = Hombres de 65 años y más
40. `pob_12_14` = Población edad entre 12 y 14
41. `pob_15_29` = Población edad entre 15 y 29
42. `pob_15_49` = Población edad entre 15 y 49
43. `pob_18_24` = Población edad entre 18 y 24
44. `pob_3_5` = Población edad entre 3 y 5
45. `pob_30_64` = Población edad entre 30 y 64
46. `pob_6_11` = Población edad entre 6 y 11
47. `pob_65_mas` = Población de 65 años y más
48. `raz_dep_adu` = Razón de dependencia adulta
49. `raz_dep_inf` = Razón de dependencia infantil
50. `raz_dep` = Razón dependencia total
51. `t_bru_mor` = Tasa bruta de mortalidad
52. `t_bru_nat` = Tasa de natalidad
53. `t_cre_nat` = Tasa de crecimiento natural
54. `t_cre_soc` = Tasa de crecimiento social
55. `t_cre_tot` = Tasa de crecimiento total
56. `t_emi_est` = Tasa de emigración interestatal
57. `t_inm_est` = Tasa de inmigración neta interestatal
58. `t_mig_net_est` = Tasa de migración neta interestatal
59. `t_mig_net_int` = Tasa de migración neta internacional
60. `tmih` = Tasa de mortalidad infantil hombres
61. `tmim` = Tasa de mortalidad infantil mujeres
62. `tmi` = Tasa de mortalidad infantil
63. `tef_ado` = Tasa específica de fecundidad adolescente
64. `tgf` = Tasa global de fecundidad
65. `fecha_reg`= Fecha registro


### 1.3 Explorando más:

In [12]:
# Las primeras 5 observaciones
df.head(5)

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
0,1,1950.0,República Mexicana,0.0,771494.0,...,120.64,129.85,149.49,6.57,2020-05-23
1,2,1951.0,República Mexicana,0.0,797550.0,...,121.47,130.87,152.02,6.66,2020-11-11
2,3,1952.0,República Mexicana,0.0,867222.0,...,113.15,122.02,153.13,6.72,2021-10-24
3,4,1953.0,República Mexicana,0.0,882943.0,...,117.92,127.28,154.67,6.78,2021-02-16
4,5,1954.0,República Mexicana,0.0,974839.0,...,103.49,111.81,154.93,6.77,2018-07-24


In [13]:
# Las últimas 5 observaciones
df.tail(5)

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
2688,2689,2046.0,Zacatecas,32.0,10394.0,...,5.17,5.77,61.18,1.91,2017-10-10
2689,2690,2047.0,Zacatecas,32.0,9948.0,...,4.98,5.56,60.89,1.9,2020-01-28
2690,2691,2048.0,Zacatecas,32.0,9504.0,...,4.8,5.35,60.6,1.89,2022-02-10
2691,2692,2049.0,Zacatecas,32.0,9045.0,...,4.62,5.15,60.38,1.88,2022-04-13
2692,2693,2050.0,Zacatecas,32.0,8624.0,...,4.45,4.96,60.15,1.88,2019-11-08


In [14]:
# Muestra aleatoria de 5 observaciones, con semilla para que sea reproducible.
df.sample(5, random_state=123)

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
1205,1206,2021.0,Jalisco,14.0,89963.0,...,8.78,9.73,62.51,2.02,2018-04-03
882,883,2022.0,Durango,10.0,20590.0,...,11.76,13.17,63.62,2.1,2022-11-10
1245,1246,1980.0,México,15.0,216599.0,...,41.77,46.83,105.17,4.53,2021-07-30
1596,1597,2007.0,Nuevo León,19.0,65333.0,...,11.32,12.65,70.45,2.24,2017-06-16
647,648,2030.0,Chiapas,7.0,93854.0,...,12.82,14.43,77.4,2.48,2017-06-16


In [15]:
# Muestra aleatoria del 1% de las observaciones con semilla para que sea reproducible.
df.sample(frac=0.01, random_state=123)

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
1205,1206,2021.0,Jalisco,14.0,89963.0,...,8.78,9.73,62.51,2.02,2018-04-03
882,883,2022.0,Durango,10.0,20590.0,...,11.76,13.17,63.62,2.1,2022-11-10
1245,1246,1980.0,México,15.0,216599.0,...,41.77,46.83,105.17,4.53,2021-07-30
1596,1597,2007.0,Nuevo León,19.0,65333.0,...,11.32,12.65,70.45,2.24,2017-06-16
647,648,2030.0,Chiapas,7.0,93854.0,...,12.82,14.43,77.4,2.48,2017-06-16
948,949,2007.0,Guanajuato,11.0,94059.0,...,16.7,18.83,68.7,2.58,2022-02-09
315,316,2022.0,Baja California Sur,3.0,9929.0,...,8.94,9.93,67.89,2.12,2020-06-16
2335,2336,2017.0,Tamaulipas,28.0,42823.0,...,11.12,12.4,70.53,2.27,2021-06-04
2618,2619,1976.0,Zacatecas,32.0,35187.0,...,68.24,74.78,114.99,6.95,2021-06-09
1852,1853,2020.0,Querétaro,22.0,27468.0,...,10.65,11.9,59.74,2.01,2022-03-28


In [16]:
# Para mandar a llamar una columna específica de la base se puede de las siguientes dos maneras:

In [17]:
df['entidad']

0       República Mexicana
1       República Mexicana
2       República Mexicana
3       República Mexicana
4       República Mexicana
               ...        
2688             Zacatecas
2689             Zacatecas
2690             Zacatecas
2691             Zacatecas
2692             Zacatecas
Name: entidad, Length: 2693, dtype: object

In [18]:
df.entidad

0       República Mexicana
1       República Mexicana
2       República Mexicana
3       República Mexicana
4       República Mexicana
               ...        
2688             Zacatecas
2689             Zacatecas
2690             Zacatecas
2691             Zacatecas
2692             Zacatecas
Name: entidad, Length: 2693, dtype: object

In [19]:
df[['año','entidad']] # dos columnas

Unnamed: 0,año,entidad
0,1950.0,República Mexicana
1,1951.0,República Mexicana
2,1952.0,República Mexicana
3,1953.0,República Mexicana
4,1954.0,República Mexicana
...,...,...
2688,2046.0,Zacatecas
2689,2047.0,Zacatecas
2690,2048.0,Zacatecas
2691,2049.0,Zacatecas


In [20]:
# Para ver las columnas de la base
df.columns

Index(['renglon', 'año', 'entidad', 'cve_geo', 'cre_nat', 'cre_soc', 'cre_tot',
       'def', 'edad_med', 'emi_est', 'emi_int', 'evh', 'evm', 'ev',
       'hom_mit_año', 'ind_env', 'inm_est', 'inm_int', 'mig_net_est',
       'mig_net_int', 'muj_mit_año', 'nac', 'pob_mit_año', 'muj_12_14',
       'muj_15_29', 'muj_15_49', 'muj_18_24', 'muj_3_5', 'muj_30_64',
       'muj_6_11', 'muj_65_mas', 'hom_12_14', 'hom_15_29', 'hom_15_49',
       'hom_18_24', 'hom_3_5', 'hom_30_64', 'hom_6_11', 'hom_65_mas',
       'pob_12_14', 'pob_15_29', 'pob_15_49', 'pob_18_24', 'pob_3_5',
       'pob_30_64', 'pob_6_11', 'pob_65_mas', 'raz_dep_adu', 'raz_dep_inf',
       'raz_dep', 't_bru_mor', 't_bru_nat', 't_cre_nat', 't_cre_soc',
       't_cre_tot', 't_emi_est', 't_inm_est', 't_mig_net_est', 't_mig_net_int',
       'tmih', 'tmim', 'tmi', 'tef_ado', 'tgf', 'fecha_reg'],
      dtype='object')

In [21]:
# Información general de la base
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2693 entries, 0 to 2692
Data columns (total 65 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   renglon        2693 non-null   object
 1   año            2693 non-null   object
 2   entidad        2693 non-null   object
 3   cve_geo        2693 non-null   object
 4   cre_nat        2693 non-null   object
 5   cre_soc        2693 non-null   object
 6   cre_tot        2693 non-null   object
 7   def            2693 non-null   object
 8   edad_med       2693 non-null   object
 9   emi_est        2693 non-null   object
 10  emi_int        2693 non-null   object
 11  evh            2693 non-null   object
 12  evm            2693 non-null   object
 13  ev             2693 non-null   object
 14  hom_mit_año    2693 non-null   object
 15  ind_env        2693 non-null   object
 16  inm_est        2693 non-null   object
 17  inm_int        2693 non-null   object
 18  mig_net_est    2693 non-null

## 2. Tipos de datos

Cuando trabajes con datos, muchas veces vendrán en diferentes formatos. Antes de hacer cualquier limpieza, debes conocer con que tipo de datos estarás trabajando. 

Al "leer" un archivo externo y transformarlo en un dataframe, Python hace su mejor esfuerzo por adivinar qué tipo de dato es cada columna. De manera simplificada, si encuentra solamente números, asignará tipo numérico (por ejemplo, entero o _float_); si encuentra texto, asignará tipo _object_. 

Hay tipos más complejos de datos que son sumamente útiles, como _date_. Por defecto, Python leerá un dato en el formato "28-07-2023" como texto (_object_) y no permitirá hacer operaciones como resta de fechas, útil para análisis como tiempo promedio de respuesta, etc. Es importante entonces asegurar que cada dato se encuentra en el formato correcto.

La primera revisión de datos es un proceso largo porque tienes que conocer columna por columna, saber de qué se trata, etc. Por ejemplo, para nuestros datos: sabemos que la mayor parte de las columnas contienen datos numéricos (e.g. edad media, nacimientos, tasas de migración, etc.). Sin embargo, podemos observar que todas están siendo leídas como tipo _object_ (texto). ¿Por qué puede pasar esto?

In [22]:
df.dtypes

renglon          object
año              object
entidad          object
cve_geo          object
cre_nat          object
cre_soc          object
cre_tot          object
def              object
edad_med         object
emi_est          object
emi_int          object
evh              object
evm              object
ev               object
hom_mit_año      object
ind_env          object
inm_est          object
inm_int          object
mig_net_est      object
mig_net_int      object
muj_mit_año      object
nac              object
pob_mit_año      object
muj_12_14        object
muj_15_29        object
muj_15_49        object
muj_18_24        object
muj_3_5          object
muj_30_64        object
muj_6_11         object
muj_65_mas       object
hom_12_14        object
hom_15_29        object
hom_15_49        object
hom_18_24        object
hom_3_5          object
hom_30_64        object
hom_6_11         object
hom_65_mas       object
pob_12_14        object
pob_15_29        object
pob_15_49       

### 2.1 Cambiar tipo de datos

Generalmente, sucede que las bases de datos que nos comparten no vienen en formato adecuado, por lo que a continuación veremos comandos para cambiar tipos de datos.

#### Hacer variable de tipo carácter (str)

In [None]:
df['renglon'] = df['renglon'].astype('str')

#### Hacer variable de tipo numérica: entero (int) o flotante (float64)

In [None]:
# Aquí estamos cambiando la variable año a tipo entero, SIN asignarla de nuevo a la base de datos, 
# para hacer el cambio debes asignarla de nuevo a la misma columna de la base
# (ve la línea anterior)
df['renglon'].astype('int')

In [None]:
df['renglon'].astype('float64')
# Observa como para este formato se está agregando un cero al último por lo que es un flotante

Conforme exploras la base de datos sabrás cuáles son las variables numéricas. Para efectos del ejecicio, aquí hay una lista con los nombres de todas las variables que son numéricas.

In [None]:
columnas_num = ['edad_med', 'evh', 'evm', 'ev', 'ind_env', 'raz_dep_adu', 'raz_dep_inf', 
                'raz_dep','t_bru_mor', 't_bru_nat', 't_cre_nat', 'tmih', 'tmim', 'tmi', 
                'tef_ado', 'tgf', 'año','cve_geo','cre_nat','def','hom_mit_año','muj_mit_año',
                'nac','pob_mit_año','muj_12_14','muj_15_29', 'muj_15_49','muj_18_24',
                'muj_3_5','muj_30_64','muj_6_11', 'muj_65_mas','hom_12_14','hom_15_29',
                'hom_15_49','hom_18_24', 'hom_3_5','hom_30_64','hom_6_11','hom_65_mas',
                'pob_12_14', 'pob_15_29','pob_15_49','pob_18_24','pob_3_5','pob_30_64',
                'pob_6_11','pob_65_mas']

In [None]:
df[columnas_num] = df[columnas_num].astype('float64')

A veces es mejor guardar las variables como enteros que como flotante.

In [None]:
columnas_enteros = ['año','cve_geo','cre_nat','def','hom_mit_año',
                    'muj_mit_año','nac','pob_mit_año','muj_12_14','muj_15_29',
                    'muj_15_49','muj_18_24','muj_3_5','muj_30_64','muj_6_11',
                    'muj_65_mas','hom_12_14','hom_15_29','hom_15_49','hom_18_24',
                    'hom_3_5','hom_30_64','hom_6_11','hom_65_mas','pob_12_14',
                    'pob_15_29','pob_15_49','pob_18_24','pob_3_5','pob_30_64',
                    'pob_6_11','pob_65_mas']

In [None]:
df[columnas_enteros] = df[columnas_enteros].astype('int64')

In [None]:
# Otra manera de hacer la variable numérica 
df['año'] = pd.to_numeric(df['año'], errors='coerce', downcast='integer')

In [None]:
# Observa como el tipo de columna es diferente a la base original
df.dtypes

#### Hacer variable de tipo temporal

In [None]:
df['fecha_reg'] = pd.to_datetime(df['fecha_reg'])

Una vez que tienes ubicadas las variables de la base puedes comenzar a realizar análisis exploratorios sencillos, dependiendo del tipo de variable es el análisis que puedes realizar.


### 3. Para variables categóricas

In [None]:
# Valores únicos por variable. En las variables string aparecerán el número de categorías únicas
df.nunique()

**Si queremos evaluar más a detalle una variable categórica:**

In [None]:
# Categorías en variable
df['entidad'].unique()

In [None]:
#  Vemos el número de observaciones por categoría de esta variable
conteos = df['entidad'].value_counts()
conteos

In [None]:
# Proporción de categorías
prop = df['entidad'].value_counts(normalize=True)

In [None]:
# Lo visualizamos mejor:
pd.concat([conteos,prop], # observa que aquí estamos concatenando las dos columnas antes creadas 
          keys=['num','prop'], 
          axis=1)

### 4. Variables numéricas

In [None]:
# Todas las variables que son numéricas las describe con esas características.
df.describe()

### 5. Variables temporales

In [None]:
# Para obtener el mes de la variable que previamente ya habíamos hecho temporal
df['mes'] = df['fecha_reg'].dt.month

In [None]:
# Año
df['fecha_reg'].dt.year

### 6. NA's

Los NA (_not applicable, not available, not assessed, no answer_) así como los valores faltantes son comunes en bases de datos, y el manejo de ellos depende de muchos factores. Antes de hacer cualquier operación sobre los datos, debes entender el contexto de la base y qué significa cada NA o valor vacío en las columnas en las que aparece.

Algunas preguntas que debes hacerte:

* ¿Tiene sentido que estos datos no estén disponibles o no existan? (e.g., alguien que nació sin útero podría tener NA/vacío en una columna llamada "embarazos previos", y sería correcto)
* Si hay datos verdaderamente faltantes, ¿es al azar, o hay grupos más afectados? (e.g. muchos indicadores socioeconómicos no están medidos en zonas rurales, lo cual significa que cualquier análisis o modelo sería menos preciso para ellas)
* ¿Son pocos o muchos? En una columna, si nos faltan solamente unos pocos valores, tal vez vale la pena explorar métodos de imputación, pero si existen 90% de faltantes, probablemente sea mejor descartarla para análisis.

Para explorar el número de NA's por columna:

In [None]:
df.isna().any()  # Para columna evalúa True sí tiene NAs

In [None]:
df.isna().sum()  # Hace la suma de NAs por columna

Realmente no hay una manera óptima para manejar valores faltantes, como mencionamos antes depende de la base de datos. En algunos casos puedes elegir hacer drop de los values o reemplazarlos. 

Ojo porque ambas operaciones tienen implicaciones sobre todo el conjunto de datos. Debes manejarte con ética, responsabilidad y cuidado a la hora de manejarlos. Una vez que estás seguro de hacer cambios sobre los NA's debes documentar, presentar y tener buenos argumentos para justificar tus decisiones. 

#### Drop de NAs

Se puede hacer por columna o por fila con `dropna()`. Con `axis=0` se elimina un renglón, con `axis=1` una columna. 

Ejemplo:

In [None]:
df_na = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 ,None, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', '--', np.nan, 'd'],
'column_d':[True, True, np.nan, None, False, True, False]
})

In [None]:
df_na

In [None]:
df_na.isna().any() 

In [None]:
df_na.isna().sum() 

In [None]:
df_na.dropna(axis=0) # Este quita los renglones que tienen NAs 

In [None]:
df_na.dropna(axis=1)  # Este quita todas las columnas que tienen NAs

Reemplazo de NAs

In [None]:
df_na.fillna(25)

In [None]:
media = df_na['column_a'].mean()
df_na['column_a'].fillna(media)

### 7. Subconjuntos de base de datos

#### 7.1 Quitando columnas

In [None]:
df.drop(['tmim',
         'tmi',
         'tef_ado'], 
        axis=1, # 0 es por filas y 1 por columnas.
        inplace=True # True es para guardar los cambios sobre la misma base. 
       )

#### 7.2 Seleccionando subconjuntos de la base

`.loc` vs `.iloc`

- `.loc`: utiliza las etiquetas de los índices y de las columnas, es decir el nombre como un string.

- `.iloc`: utiliza la posición como entero del dataframe.

Seleccionamos todas las filas (`:`), de las columnas que están desde la posición 0 hasta la 3, y luego las columnas 4, 8, 10.

In [None]:
df.iloc[:,0:3]

In [None]:
df.iloc[:,[0,2,4]]

In [None]:
# Selecciona las filas 2 hasta la 6
df.iloc[2:6,]

In [None]:
# Selecciona filas con los índices 122, 126 y 208:
df.iloc[[122,126,208],]

Seleccionar columnas de acuerdo a las etiquetas de las columnas

In [None]:
# Seleccionando mujeres
df.loc[:,'muj_12_14':'muj_65_mas']

In [None]:
df.loc[:,['hom_15_29','hom_15_29','hom_6_11']]

In [23]:
df.loc[0:1,]

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
0,1,1950.0,República Mexicana,0.0,771494.0,...,120.64,129.85,149.49,6.57,2020-05-23
1,2,1951.0,República Mexicana,0.0,797550.0,...,121.47,130.87,152.02,6.66,2020-11-11


In [None]:
df[['hom_15_29', 'hom_15_29']].loc[['X', 'Y']]

#### 7.3 Selecionar filas basadas en condiciones

In [None]:
df[(['hom_6_11','hom_3_5','hom_12_14','año'])].query('2049 < año')

##### Buscar condiciones en filas

In [None]:
df['entidad'].unique()

In [None]:
# seleccionar solo las categorias que tienen corredor y autopista
categories_interes = ['Guanajuato', 'Tlaxcala']
df[df['entidad'].isin(categories_interes)].query('año == 2005')

### 8. Reset index

El index termina siendo importante en la exploración:

In [None]:
df2 = df[df['entidad'].str.contains('Baja California')]

In [None]:
# nueva columna con el index
df2.reset_index().head()

In [None]:
# Hace un drop del index
df2.reset_index(drop=True).head()

In [None]:
# Quita el index sobre la base de datos df2
df2.reset_index(inplace=True)

In [None]:
df2.head()