[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/6_pandas3_agrupar_analisis_basicos.ipynb)

# Propedéutico a programación con Python.

**Verano 2023, por el Centro de Ciencia de Datos, EGobiernoyTP.**

### Sesión 4: Exploración de bases de datos

1. Generalidades de bases de datos
    - ¿Cuántas variables y observaciones tenemos?
    - Diccionario de variables
    - Explorando más
2. Tipos de datos en db
    - Cambiar tipos de datos
        - str
        - float
        - int
        - datetime
3. Variables categóricas
4. Variables numéricas
5. Variables temporales
6. NA's
    - Drop
    - Replace
7. Subconjuntos de bases
    - Quitar columnas
    - Seleccionar subconjuntos de la base
    - Seleccionar subconjuntos basados en condiciones
8. Reset index


In [2]:
# Paquetes
import numpy as np
import pandas as pd

### Algunas líneas de set-up útiles

**Para ver 200 filas en el notebook**

In [3]:
pd.set_option('display.max_rows', 2000)

**Para ver 10 columnas en el notebook**

In [4]:
pd.set_option('display.max_columns', 10)

## 1. Generalidades de bases de datos

In [5]:
# Datos
df = pd.read_csv('../datos/indicadores.csv', dtype='str')

In [6]:
df

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
0,1,1950.0,República Mexicana,0.0,771494.0,...,120.64,129.85,149.49,6.57,2020-05-23
1,2,1951.0,República Mexicana,0.0,797550.0,...,121.47,130.87,152.02,6.66,2020-11-11
2,3,1952.0,República Mexicana,0.0,867222.0,...,113.15,122.02,153.13,6.72,2021-10-24
3,4,1953.0,República Mexicana,0.0,882943.0,...,117.92,127.28,154.67,6.78,2021-02-16
4,5,1954.0,República Mexicana,0.0,974839.0,...,103.49,111.81,154.93,6.77,2018-07-24
...,...,...,...,...,...,...,...,...,...,...,...
2688,2689,2046.0,Zacatecas,32.0,10394.0,...,5.17,5.77,61.18,1.91,2017-10-10
2689,2690,2047.0,Zacatecas,32.0,9948.0,...,4.98,5.56,60.89,1.9,2020-01-28
2690,2691,2048.0,Zacatecas,32.0,9504.0,...,4.8,5.35,60.6,1.89,2022-02-10
2691,2692,2049.0,Zacatecas,32.0,9045.0,...,4.62,5.15,60.38,1.88,2022-04-13


### 1.1 ¿Cuántas variables y observaciones tenemos?

In [7]:
df.shape

(2693, 65)

In [8]:
# Renglones
df.shape[0]

2693

In [9]:
# Columnas
df.shape[1]

65

In [10]:
# Nombre de columnas
df.columns

Index(['renglon', 'año', 'entidad', 'cve_geo', 'cre_nat', 'cre_soc', 'cre_tot',
       'def', 'edad_med', 'emi_est', 'emi_int', 'evh', 'evm', 'ev',
       'hom_mit_año', 'ind_env', 'inm_est', 'inm_int', 'mig_net_est',
       'mig_net_int', 'muj_mit_año', 'nac', 'pob_mit_año', 'muj_12_14',
       'muj_15_29', 'muj_15_49', 'muj_18_24', 'muj_3_5', 'muj_30_64',
       'muj_6_11', 'muj_65_mas', 'hom_12_14', 'hom_15_29', 'hom_15_49',
       'hom_18_24', 'hom_3_5', 'hom_30_64', 'hom_6_11', 'hom_65_mas',
       'pob_12_14', 'pob_15_29', 'pob_15_49', 'pob_18_24', 'pob_3_5',
       'pob_30_64', 'pob_6_11', 'pob_65_mas', 'raz_dep_adu', 'raz_dep_inf',
       'raz_dep', 't_bru_mor', 't_bru_nat', 't_cre_nat', 't_cre_soc',
       't_cre_tot', 't_emi_est', 't_inm_est', 't_mig_net_est', 't_mig_net_int',
       'tmih', 'tmim', 'tmi', 'tef_ado', 'tgf', 'fecha_reg'],
      dtype='object')

### 1.2 Diccionario de variables

Con cada base de datos con la que trabajes DEBES de tener el significado de cada variable para poder trabajar adecuadamente. A continuación el diccionario de la base con la que estaremos mostrando pandas.

1. `renglon`
2. `año`
3. `entidad`
4. `cve_geo`
5. `cre_nat` = Crecimiento natural
6. `cre_soc` = Crecimiento social
7. `cre_tot` = Crecimiento total
8. `def` = Defunciones
9. `edad_med` = Edad Mediana
10. `emi_est` = Emigrantes interestatales
11. `emi_int` = Emigrantes internacionales
12. `evh` = Esperanza de vida al nacimiento de hombres
13. `evm` = Esperanza de vida al nacimiento de mujeres
14. `ev` = Esperanza de vida al nacimiento total
15. `hom_mit_año` = Hombres mitad de año
16. `ind_env` = Índice de Envejecimiento
17. `inm_est` = Inmigrantes interestatales
18. `inm_int` = Inmigrantes internacionales
19. `mig_net_est` = Migración neta interestatal
20. `mig_net_int` = Migración neta internacional
21. `muj_mit_año` = Mujeres mitad de año
22. `nac` = Nacimientos
23. `pob_mit_año` = Población mitad de año
24. `muj_12_14` = Mujeres edad entre 12 y 14
25. `muj_15_29` = Mujeres edad entre 15 y 29
26. `muj_15_49` = Mujeres edad entre 15 y 49
27. `muj_18_24` = Mujeres edad entre 18 y 24
28. `muj_3_5` = Mujeres edad entre 3 y 5
29. `muj_30_64` = Mujeres edad entre 30 y 64
30. `muj_6_11` = Mujeres edad entre 6 y 11
31. `muj_65_mas` = Mujeres de 65 años y más
32. `hom_12_14` = Hombres edad entre 12 y 14
33. `hom_15_29` = Hombres edad entre 15 y 29
34. `hom_15_49` = Hombres edad entre 15 y 49
35. `hom_18_24` = Hombres edad entre 18 y 24
36. `hom_3_5` = Hombres edad entre 3 y 5
37. `hom_30_64` = Hombres edad entre 30 y 64
38. `hom_6_11` = Hombres edad entre 6 y 11
39. `hom_65_mas` = Hombres de 65 años y más
40. `pob_12_14` = Población edad entre 12 y 14
41. `pob_15_29` = Población edad entre 15 y 29
42. `pob_15_49` = Población edad entre 15 y 49
43. `pob_18_24` = Población edad entre 18 y 24
44. `pob_3_5` = Población edad entre 3 y 5
45. `pob_30_64` = Población edad entre 30 y 64
46. `pob_6_11` = Población edad entre 6 y 11
47. `pob_65_mas` = Población de 65 años y más
48. `raz_dep_adu` = Razón de dependencia adulta
49. `raz_dep_inf` = Razón de dependencia infantil
50. `raz_dep` = Razón dependencia total
51. `t_bru_mor` = Tasa bruta de mortalidad
52. `t_bru_nat` = Tasa de natalidad
53. `t_cre_nat` = Tasa de crecimiento natural
54. `t_cre_soc` = Tasa de crecimiento social
55. `t_cre_tot` = Tasa de crecimiento total
56. `t_emi_est` = Tasa de emigración interestatal
57. `t_inm_est` = Tasa de inmigración neta interestatal
58. `t_mig_net_est` = Tasa de migración neta interestatal
59. `t_mig_net_int` = Tasa de migración neta internacional
60. `tmih` = Tasa de mortalidad infantil hombres
61. `tmim` = Tasa de mortalidad infantil mujeres
62. `tmi` = Tasa de mortalidad infantil
63. `tef_ado` = Tasa específica de fecundidad adolescente
64. `tgf` = Tasa global de fecundidad
65. `fecha_reg`= Fecha registro


### 1.3 Explorando más:

In [11]:
# Las primeras 5 observaciones
df.head(5)

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
0,1,1950.0,República Mexicana,0.0,771494.0,...,120.64,129.85,149.49,6.57,2020-05-23
1,2,1951.0,República Mexicana,0.0,797550.0,...,121.47,130.87,152.02,6.66,2020-11-11
2,3,1952.0,República Mexicana,0.0,867222.0,...,113.15,122.02,153.13,6.72,2021-10-24
3,4,1953.0,República Mexicana,0.0,882943.0,...,117.92,127.28,154.67,6.78,2021-02-16
4,5,1954.0,República Mexicana,0.0,974839.0,...,103.49,111.81,154.93,6.77,2018-07-24


In [12]:
# Las últimas 5 observaciones
df.tail(5)

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
2688,2689,2046.0,Zacatecas,32.0,10394.0,...,5.17,5.77,61.18,1.91,2017-10-10
2689,2690,2047.0,Zacatecas,32.0,9948.0,...,4.98,5.56,60.89,1.9,2020-01-28
2690,2691,2048.0,Zacatecas,32.0,9504.0,...,4.8,5.35,60.6,1.89,2022-02-10
2691,2692,2049.0,Zacatecas,32.0,9045.0,...,4.62,5.15,60.38,1.88,2022-04-13
2692,2693,2050.0,Zacatecas,32.0,8624.0,...,4.45,4.96,60.15,1.88,2019-11-08


In [13]:
# Muestra aleatoria de 5 observaciones, con semilla para que sea reproducible.
df.sample(5,random_state=123)

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
1205,1206,2021.0,Jalisco,14.0,89963.0,...,8.78,9.73,62.51,2.02,2018-04-03
882,883,2022.0,Durango,10.0,20590.0,...,11.76,13.17,63.62,2.1,2022-11-10
1245,1246,1980.0,México,15.0,216599.0,...,41.77,46.83,105.17,4.53,2021-07-30
1596,1597,2007.0,Nuevo León,19.0,65333.0,...,11.32,12.65,70.45,2.24,2017-06-16
647,648,2030.0,Chiapas,7.0,93854.0,...,12.82,14.43,77.4,2.48,2017-06-16


In [19]:
# Muestra aletoria del 10% de las observaciones con semilla para que sea reproducible.
df.sample(frac=0.01, random_state=123)

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,tmim,tmi,tef_ado,tgf,fecha_reg
1205,1206,2021.0,Jalisco,14.0,89963.0,...,8.78,9.73,62.51,2.02,2018-04-03
882,883,2022.0,Durango,10.0,20590.0,...,11.76,13.17,63.62,2.1,2022-11-10
1245,1246,1980.0,México,15.0,216599.0,...,41.77,46.83,105.17,4.53,2021-07-30
1596,1597,2007.0,Nuevo León,19.0,65333.0,...,11.32,12.65,70.45,2.24,2017-06-16
647,648,2030.0,Chiapas,7.0,93854.0,...,12.82,14.43,77.4,2.48,2017-06-16
948,949,2007.0,Guanajuato,11.0,94059.0,...,16.7,18.83,68.7,2.58,2022-02-09
315,316,2022.0,Baja California Sur,3.0,9929.0,...,8.94,9.93,67.89,2.12,2020-06-16
2335,2336,2017.0,Tamaulipas,28.0,42823.0,...,11.12,12.4,70.53,2.27,2021-06-04
2618,2619,1976.0,Zacatecas,32.0,35187.0,...,68.24,74.78,114.99,6.95,2021-06-09
1852,1853,2020.0,Querétaro,22.0,27468.0,...,10.65,11.9,59.74,2.01,2022-03-28


In [20]:
# Para mandar a llamar una columna específica de la base se puede de las siguientes dos maneras:

In [22]:
df['entidad']

0       República Mexicana
1       República Mexicana
2       República Mexicana
3       República Mexicana
4       República Mexicana
               ...        
2688             Zacatecas
2689             Zacatecas
2690             Zacatecas
2691             Zacatecas
2692             Zacatecas
Name: entidad, Length: 2693, dtype: object

In [23]:
df.entidad

0       República Mexicana
1       República Mexicana
2       República Mexicana
3       República Mexicana
4       República Mexicana
               ...        
2688             Zacatecas
2689             Zacatecas
2690             Zacatecas
2691             Zacatecas
2692             Zacatecas
Name: entidad, Length: 2693, dtype: object

## 2. Tipos de datos en db

Cuando trabajes con datos, muchas veces vendrán en diferentes formatos, antes de hacer cualquier limpieza o revisión, debes de asegurarte con que tipo de dato estarás trabajando. Este es un proceso largo porque tienes que conocer columna por columna, saber de qué se trata, etc. Para efectos de la sesión, se te enseñará la técnica para cambiar columnas. 

Primero tienes que ver con qué tipos de datos trabajas:

In [15]:
df.dtypes

renglon          object
año              object
entidad          object
cve_geo          object
cre_nat          object
cre_soc          object
cre_tot          object
def              object
edad_med         object
emi_est          object
emi_int          object
evh              object
evm              object
ev               object
hom_mit_año      object
ind_env          object
inm_est          object
inm_int          object
mig_net_est      object
mig_net_int      object
muj_mit_año      object
nac              object
pob_mit_año      object
muj_12_14        object
muj_15_29        object
muj_15_49        object
muj_18_24        object
muj_3_5          object
muj_30_64        object
muj_6_11         object
muj_65_mas       object
hom_12_14        object
hom_15_29        object
hom_15_49        object
hom_18_24        object
hom_3_5          object
hom_30_64        object
hom_6_11         object
hom_65_mas       object
pob_12_14        object
pob_15_29        object
pob_15_49       

### 2.1 Cambiar tipo de datos

Generalmente, sucede que las bases de datos que nos comparten no vienen en formato adecuado, por lo que a continuación veremos comandos para cambiar tipos de datos.

#### Hacer variable de tipo carácter (str)

In [16]:
df['renglon'] = df['renglon'].astype('str')

#### Hacer variable de tipo numérica: entero (int) o flotante (float64)

In [24]:
# Aquí estamos cambiando la variable año a tipo entero, SIN asignarla de nuevo a la base de datos, 
# para hacer el cambio debes asignarla de nuevo a la misma columna de la base
# (ve la línea anterior)
df['renglon'].astype('int')

0          1
1          2
2          3
3          4
4          5
        ... 
2688    2689
2689    2690
2690    2691
2691    2692
2692    2693
Name: renglon, Length: 2693, dtype: int64

In [25]:
df['renglon'].astype('float64')
# Observa como para este formato se está agregando un cero al último por lo que es un flotante

0          1.0
1          2.0
2          3.0
3          4.0
4          5.0
         ...  
2688    2689.0
2689    2690.0
2690    2691.0
2691    2692.0
2692    2693.0
Name: renglon, Length: 2693, dtype: float64

Conforme exploras la base de datos sabrás cuáles son las variables numéricas, para efectos del ejecicio te dejamos todas las que son numéricas.

In [28]:
columnas_num = ['edad_med', 'evh', 'evm', 'ev', 'ind_env', 'raz_dep_adu', 'raz_dep_inf', 
                'raz_dep','t_bru_mor', 't_bru_nat', 't_cre_nat', 'tmih', 'tmim', 'tmi', 
                'tef_ado', 'tgf', 'año','cve_geo','cre_nat','def','hom_mit_año','muj_mit_año',
                'nac','pob_mit_año','muj_12_14','muj_15_29', 'muj_15_49','muj_18_24',
                'muj_3_5','muj_30_64','muj_6_11', 'muj_65_mas','hom_12_14','hom_15_29',
                'hom_15_49','hom_18_24', 'hom_3_5','hom_30_64','hom_6_11','hom_65_mas',
                'pob_12_14', 'pob_15_29','pob_15_49','pob_18_24','pob_3_5','pob_30_64',
                'pob_6_11','pob_65_mas']

In [29]:
df[columnas_num] = df[columnas_num].astype('float64')

A veces es mejor guardar las variables como enteros que como flotante.

In [30]:
columnas_enteros = ['año','cve_geo','cre_nat','def','hom_mit_año',
                    'muj_mit_año','nac','pob_mit_año','muj_12_14','muj_15_29',
                    'muj_15_49','muj_18_24','muj_3_5','muj_30_64','muj_6_11',
                    'muj_65_mas','hom_12_14','hom_15_29','hom_15_49','hom_18_24',
                    'hom_3_5','hom_30_64','hom_6_11','hom_65_mas','pob_12_14',
                    'pob_15_29','pob_15_49','pob_18_24','pob_3_5','pob_30_64',
                    'pob_6_11','pob_65_mas']

In [31]:
df[columnas_enteros] = df[columnas_enteros].astype('int64')

In [32]:
# Otra manera de hacer la variable numérica 
df['año'] = pd.to_numeric(df['año'], errors='coerce', downcast='integer')

In [33]:
# Observa como el tipo de columna es diferente a la base original
df.dtypes

renglon           object
año                int16
entidad           object
cve_geo            int64
cre_nat            int64
cre_soc           object
cre_tot           object
def                int64
edad_med         float64
emi_est           object
emi_int           object
evh              float64
evm              float64
ev               float64
hom_mit_año        int64
ind_env          float64
inm_est           object
inm_int           object
mig_net_est       object
mig_net_int       object
muj_mit_año        int64
nac                int64
pob_mit_año        int64
muj_12_14          int64
muj_15_29          int64
muj_15_49          int64
muj_18_24          int64
muj_3_5            int64
muj_30_64          int64
muj_6_11           int64
muj_65_mas         int64
hom_12_14          int64
hom_15_29          int64
hom_15_49          int64
hom_18_24          int64
hom_3_5            int64
hom_30_64          int64
hom_6_11           int64
hom_65_mas         int64
pob_12_14          int64


#### Hacer variable de tipo temporal

In [34]:
df['fecha_reg'] = pd.to_datetime(df['fecha_reg'])

Una vez que tienes ubicadas las variables de la base puedes comenzar a realizar análisis sencillos para explorar la base, dependiendo del tipo de variable es el análisis que puedes realizar.


### 3. Para variables categorícas

In [35]:
# Valores únicos por variable. En las variables string aparecerán el número de categorías únicas
df.nunique()

renglon          2693
año               101
entidad            33
cve_geo            33
cre_nat          2656
cre_soc          1199
cre_tot          1210
def              2605
edad_med         1043
emi_est          1138
emi_int          1094
evh              1232
evm              1282
ev               1276
hom_mit_año      2693
ind_env          2038
inm_est          1135
inm_int          1058
mig_net_est      1084
mig_net_int      1055
muj_mit_año      2691
nac              2665
pob_mit_año      2693
muj_12_14        2674
muj_15_29        2686
muj_15_49        2689
muj_18_24        2684
muj_3_5          2667
muj_30_64        2691
muj_6_11         2679
muj_65_mas       2682
hom_12_14        2665
hom_15_29        2690
hom_15_49        2690
hom_18_24        2689
hom_3_5          2666
hom_30_64        2692
hom_6_11         2677
hom_65_mas       2686
pob_12_14        2679
pob_15_29        2687
pob_15_49        2691
pob_18_24        2691
pob_3_5          2684
pob_30_64        2690
pob_6_11  

**Si queremos evaluar más a detalle una variable categórica:**

In [39]:
# Categorías en variable
df['entidad'].unique()

array(['República Mexicana', 'Aguascalientes', 'Baja California',
       'Baja California Sur', 'Campeche', 'Coahuila', 'Colima', 'Chiapas',
       'Chihuahua', 'Ciudad de México', 'Durango', 'Guanajuato',
       'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacán', 'Morelos',
       'Nayarit', 'Nuevo León', 'Oaxaca', 'Puebla', 'Querétaro',
       'Quintana Roo', 'San Luis Potosí', 'Sinaloa', 'Sonora', 'Tabasco',
       'Tamaulipas', 'Tlaxcala', 'Veracruz', 'Yucatán', 'Zacatecas'],
      dtype=object)

In [40]:
#  Vemos el número de observaciones por categoría de esta variable
conteos = df['entidad'].value_counts()
conteos

República Mexicana     101
Morelos                 81
Yucatán                 81
Veracruz                81
Tlaxcala                81
Tamaulipas              81
Tabasco                 81
Sonora                  81
Sinaloa                 81
San Luis Potosí         81
Quintana Roo            81
Querétaro               81
Puebla                  81
Oaxaca                  81
Nuevo León              81
Nayarit                 81
Michoacán               81
Aguascalientes          81
México                  81
Jalisco                 81
Hidalgo                 81
Guerrero                81
Guanajuato              81
Durango                 81
Ciudad de México        81
Chihuahua               81
Chiapas                 81
Colima                  81
Coahuila                81
Campeche                81
Baja California Sur     81
Baja California         81
Zacatecas               81
Name: entidad, dtype: int64

In [41]:
# Proporción de categorías
prop = df['entidad'].value_counts(normalize=True)

In [42]:
# Lo visualizamos mejor:
pd.concat([conteos,prop], # observa que aquí estamos concatenando las dos columnas antes creadas 
          keys=['num','prop'], 
          axis=1)

Unnamed: 0,num,prop
República Mexicana,101,0.037505
Morelos,81,0.030078
Yucatán,81,0.030078
Veracruz,81,0.030078
Tlaxcala,81,0.030078
Tamaulipas,81,0.030078
Tabasco,81,0.030078
Sonora,81,0.030078
Sinaloa,81,0.030078
San Luis Potosí,81,0.030078


### 4. Variables numéricas

In [43]:
# Todas las variables que son numéricas las describe con esas características.
df.describe()

Unnamed: 0,año,cve_geo,cre_nat,def,edad_med,...,tmih,tmim,tmi,tef_ado,tgf
count,2693.0,2693.0,2693.0,2693.0,2693.0,...,2693.0,2693.0,2693.0,2693.0,2693.0
mean,2009.624954,15.881173,96516.1,46545.42,25.256457,...,27.188381,22.353632,24.830126,83.287159,2.991868
std,23.703618,9.587208,278723.5,135277.9,7.390927,...,24.196979,20.433193,22.358648,28.899747,1.491475
min,1950.0,0.0,-42707.0,924.0,14.0,...,3.52,2.93,3.27,43.92,1.36
25%,1989.0,8.0,17652.0,8975.0,18.19,...,9.68,7.86,8.78,62.73,1.92
50%,2010.0,16.0,34053.0,16180.0,25.0,...,17.3,13.87,15.62,75.08,2.37
75%,2030.0,24.0,62973.0,30720.0,31.38,...,36.41,29.57,32.99,93.87,3.57
max,2050.0,32.0,1980503.0,1333960.0,47.0,...,139.83,121.47,130.87,205.84,7.78


### 5. Variables temporales

In [44]:
# Para obtener el mes de la variable que previamente ya habíamos hecho temporal
df['mes'] = df['fecha_reg'].dt.month

In [45]:
# Año
df['fecha_reg'].dt.year

0       2020
1       2020
2       2021
3       2021
4       2018
        ... 
2688    2017
2689    2020
2690    2022
2691    2022
2692    2019
Name: fecha_reg, Length: 2693, dtype: int64

### 6. NA's

Los NAs son comunes en bases de datos, y el manejo de ellos depende de muchos factores. Antes de hacer cualquier operación sobre ellos debes de entender el contexto de la base y qué significa cada NA en las columnas en las que aparece. 

Para explorar el número de NA's por columna:

In [48]:
df.isna().any()  # Para columna evalúa True sí tiene NAs

renglon          False
año              False
entidad          False
cve_geo          False
cre_nat          False
cre_soc          False
cre_tot          False
def              False
edad_med         False
emi_est          False
emi_int          False
evh              False
evm              False
ev               False
hom_mit_año      False
ind_env          False
inm_est          False
inm_int          False
mig_net_est      False
mig_net_int      False
muj_mit_año      False
nac              False
pob_mit_año      False
muj_12_14        False
muj_15_29        False
muj_15_49        False
muj_18_24        False
muj_3_5          False
muj_30_64        False
muj_6_11         False
muj_65_mas       False
hom_12_14        False
hom_15_29        False
hom_15_49        False
hom_18_24        False
hom_3_5          False
hom_30_64        False
hom_6_11         False
hom_65_mas       False
pob_12_14        False
pob_15_29        False
pob_15_49        False
pob_18_24        False
pob_3_5    

In [33]:
df.isna().sum()  # Hace la suma de NAs por columna

renglon          0
año              0
entidad          0
cve_geo          0
cre_nat          0
cre_soc          0
cre_tot          0
def              0
edad_med         0
emi_est          0
emi_int          0
evh              0
evm              0
ev               0
hom_mit_año      0
ind_env          0
inm_est          0
inm_int          0
mig_net_est      0
mig_net_int      0
muj_mit_año      0
nac              0
pob_mit_año      0
muj_12_14        0
muj_15_29        0
muj_15_49        0
muj_18_24        0
muj_3_5          0
muj_30_64        0
muj_6_11         0
muj_65_mas       0
hom_12_14        0
hom_15_29        0
hom_15_49        0
hom_18_24        0
hom_3_5          0
hom_30_64        0
hom_6_11         0
hom_65_mas       0
pob_12_14        0
pob_15_29        0
pob_15_49        0
pob_18_24        0
pob_3_5          0
pob_30_64        0
pob_6_11         0
pob_65_mas       0
raz_dep_adu      0
raz_dep_inf      0
raz_dep          0
t_bru_mor        0
t_bru_nat        0
t_cre_nat   

Realmente no hay una manera óptima para manejar valores faltantes, como mencionamos antes depende de la base de datos. En algunos casos puedes elegir hacer drop de los values o reemplazarlos. 

Ojo porque ambas operaciones tienen implicaciones sobre todo el conjunto de datos. Debes manejarte con ética, responsabilidad y cuidado a la hora de manejarlos. Una vez que estás seguro de hacer cambios sobre los NA's debes documentar, presentar y tener buenos argumentos para justificar tus decisiones. 

#### Drop de NAs

Se puede hacer por columna o por fila con `dropna()`, si `axis=0` entonces es renglón, si es `axis=1` entonces es columna. 

Ejemplo:

In [61]:
df_na = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 ,None, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', '--', np.nan, 'd'],
'column_d':[True, True, np.nan, None, False, True, False]
})

In [62]:
df_na

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,
3,4.0,6.2,d,
4,,,--,False
5,,1.1,,True
6,6.0,4.3,d,False


In [56]:
df_na.isna().any() 

column_a    True
column_b    True
column_c    True
column_d    True
dtype: bool

In [57]:
df_na.isna().sum() 

column_a    2
column_b    2
column_c    1
column_d    2
dtype: int64

In [58]:
df_na.dropna(axis=0) # Este quita los renglones que tienen NAs 

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
6,6.0,4.3,d,False


In [60]:
df_na.dropna(axis=1)  # Este quita todas las columnas que tienen NAs

0
1
2
3
4
5
6


Reemplazo de NAs

In [63]:
df_na.fillna(25)

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,25.0,c,25
3,4.0,6.2,d,25
4,25.0,25.0,--,False
5,25.0,1.1,25,True
6,6.0,4.3,d,False


In [64]:
media = df_na['column_a'].mean()
df_na['column_a'].fillna(media)

0    1.0
1    2.0
2    4.0
3    4.0
4    3.4
5    3.4
6    6.0
Name: column_a, dtype: float64

### 7. Subconjuntos de base de datos

#### 7.1 Quitando columnas

In [34]:
df.drop(['tmim',
         'tmi',
         'tef_ado'], 
        axis=1, # 0 es por filas y 1 por columnas.
        inplace=True # True es para guardar los cambios sobre la misma base. 
       )

#### 7.2 Seleccionando subconjuntos de la base

`.loc` vs `.iloc`

- `.loc`: utiliza las etiquetas de los índices y de las columnas, es decir el nombre como un string.

- `.iloc`: utiliza la posición como entero del dataframe.

Seleccionamos todas las filas (`:`), de las columnas que están desde la posición 0 hasta la 3, y luego las columnas 4, 8, 10.

In [35]:
df.iloc[:,0:3]

Unnamed: 0,renglon,año,entidad
0,1,1950,República Mexicana
1,2,1951,República Mexicana
2,3,1952,República Mexicana
3,4,1953,República Mexicana
4,5,1954,República Mexicana
...,...,...,...
2688,2689,2046,Zacatecas
2689,2690,2047,Zacatecas
2690,2691,2048,Zacatecas
2691,2692,2049,Zacatecas


In [36]:
df.iloc[:,[0,2,4]]

Unnamed: 0,renglon,entidad,cre_nat
0,1,República Mexicana,771494
1,2,República Mexicana,797550
2,3,República Mexicana,867222
3,4,República Mexicana,882943
4,5,República Mexicana,974839
...,...,...,...
2688,2689,Zacatecas,10394
2689,2690,Zacatecas,9948
2690,2691,Zacatecas,9504
2691,2692,Zacatecas,9045


In [37]:
# Selecciona las filas 2 hasta la 6
df.iloc[2:6,]

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,t_mig_net_int,tmih,tgf,fecha_reg,mes
2,3,1952,República Mexicana,0,867222,...,-0.12,130.46,6.72,2021-10-24,10
3,4,1953,República Mexicana,0,882943,...,-0.12,136.19,6.78,2021-02-16,2
4,5,1954,República Mexicana,0,974839,...,-0.12,119.73,6.77,2018-07-24,7
5,6,1955,República Mexicana,0,1021567,...,-0.12,114.46,6.81,2017-09-07,9


In [38]:
# Selecciona filas con los índices 122, 126 y 208:
df.iloc[[122,126,208],]

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,t_mig_net_int,tmih,tgf,fecha_reg,mes
122,123,1991,Aguascalientes,1,19724,...,ND,28.31,3.7,2021-05-23,5
126,127,1995,Aguascalientes,1,20950,...,ND,25.8,3.37,2021-05-02,5
208,209,1996,Baja California,2,43508,...,ND,22.55,2.69,2022-11-19,11


Seleccionar columnas de acuerdo a las etiquetas de las columnas

In [39]:
# Seleccionando mujeres
df.loc[:,'muj_12_14':'muj_65_mas']

Unnamed: 0,muj_12_14,muj_15_29,muj_15_49,muj_18_24,muj_3_5,muj_30_64,muj_6_11,muj_65_mas
0,913612,3463334,6198487,1664854,1265903,3803433,2123318,427476
1,938932,3555366,6337070,1710721,1309697,3887150,2187898,445730
2,966306,3649012,6480135,1755915,1356911,3974952,2255859,464211
3,995553,3745691,6630085,1800920,1405168,4067546,2328445,483397
4,1025374,3846467,6788865,1846279,1456265,4166394,2407526,504012
...,...,...,...,...,...,...,...,...
2688,39831,199557,451991,93107,38200,414067,78202,150177
2689,39600,198270,451214,92515,37875,415512,77648,153335
2690,39363,197026,450419,91960,37545,416757,77076,156479
2691,39117,195826,449568,91442,37210,417792,76485,159617


In [40]:
df.loc[:,['hom_15_29','hom_18_24','hom_6_11']]

Unnamed: 0,hom_15_29,hom_18_24,hom_6_11
0,3508333,1688145,2170111
1,3598248,1732318,2236078
2,3689848,1775435,2305617
3,3783388,1817545,2379180
4,3881069,1859957,2459436
...,...,...,...
2688,203226,95252,81502
2689,201950,94697,80931
2690,200717,94165,80333
2691,199529,93656,79715


In [41]:
df.loc[0:1,]

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,t_mig_net_int,tmih,tgf,fecha_reg,mes
0,1,1950,República Mexicana,0,771494,...,-0.11,138.63,6.57,2020-05-23,5
1,2,1951,República Mexicana,0,797550,...,-0.12,139.83,6.66,2020-11-11,11


#### 7.3 Selecionar filas basadas en condiciones

In [42]:
df[(['hom_6_11','hom_3_5','hom_12_14','año'])].query('2049 < año')

Unnamed: 0,hom_6_11,hom_3_5,hom_12_14,año
100,5481726,2644719,2832563,2050
181,63895,30338,33645,2050
262,163188,78092,84863,2050
343,44112,21968,22236,2050
424,54541,26699,27728,2050
505,182946,91178,91267,2050
586,39362,19188,20141,2050
667,384694,192971,190192,2050
748,153062,72888,80188,2050
829,188239,89414,100394,2050


##### Buscar condiciones en filas

In [43]:
df['entidad'].unique()

array(['República Mexicana', 'Aguascalientes', 'Baja California',
       'Baja California Sur', 'Campeche', 'Coahuila', 'Colima', 'Chiapas',
       'Chihuahua', 'Ciudad de México', 'Durango', 'Guanajuato',
       'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacán', 'Morelos',
       'Nayarit', 'Nuevo León', 'Oaxaca', 'Puebla', 'Querétaro',
       'Quintana Roo', 'San Luis Potosí', 'Sinaloa', 'Sonora', 'Tabasco',
       'Tamaulipas', 'Tlaxcala', 'Veracruz', 'Yucatán', 'Zacatecas'],
      dtype=object)

In [44]:
# seleccionar solo las categorias que tienen corredor y autopista
categories_interes = ['Guanajuato', 'Tlaxcala']
df[df['entidad'].isin(categories_interes)].query('año == 2005')

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,t_mig_net_int,tmih,tgf,fecha_reg,mes
946,947,2005,Guanajuato,11,94560,...,ND,21.82,2.67,2019-12-28,12
2404,2405,2005,Tlaxcala,29,20150,...,ND,21.49,2.57,2019-09-28,9


### 8. Reset index

El index termina siendo importante en la exploración:

In [45]:
df2 = df[df['entidad'].str.contains('Baja California')]

In [46]:
# nueva columna con el index
df2.reset_index().head()

Unnamed: 0,index,renglon,año,entidad,cve_geo,...,t_mig_net_int,tmih,tgf,fecha_reg,mes
0,182,183,1970,Baja California,2,...,ND,62.69,5.5,2018-07-23,7
1,183,184,1971,Baja California,2,...,ND,59.32,5.34,2017-09-20,9
2,184,185,1972,Baja California,2,...,ND,58.08,5.17,2019-04-27,4
3,185,186,1973,Baja California,2,...,ND,56.37,5.01,2018-03-05,3
4,186,187,1974,Baja California,2,...,ND,54.95,4.83,2017-12-06,12


In [47]:
# Hace un drop del index
df2.reset_index(drop=True).head()

Unnamed: 0,renglon,año,entidad,cve_geo,cre_nat,...,t_mig_net_int,tmih,tgf,fecha_reg,mes
0,183,1970,Baja California,2,26994,...,ND,62.69,5.5,2018-07-23,7
1,184,1971,Baja California,2,27527,...,ND,59.32,5.34,2017-09-20,9
2,185,1972,Baja California,2,27608,...,ND,58.08,5.17,2019-04-27,4
3,186,1973,Baja California,2,27768,...,ND,56.37,5.01,2018-03-05,3
4,187,1974,Baja California,2,27945,...,ND,54.95,4.83,2017-12-06,12


In [48]:
# Quita el index sobre la base de datos df2
df2.reset_index(inplace=True)

In [49]:
df2.head()

Unnamed: 0,index,renglon,año,entidad,cve_geo,...,t_mig_net_int,tmih,tgf,fecha_reg,mes
0,182,183,1970,Baja California,2,...,ND,62.69,5.5,2018-07-23,7
1,183,184,1971,Baja California,2,...,ND,59.32,5.34,2017-09-20,9
2,184,185,1972,Baja California,2,...,ND,58.08,5.17,2019-04-27,4
3,185,186,1973,Baja California,2,...,ND,56.37,5.01,2018-03-05,3
4,186,187,1974,Baja California,2,...,ND,54.95,4.83,2017-12-06,12
