[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/6_pandas3_agrupar_analisis_basicos.ipynb)

# Propedéutico a programación con Python.

**Verano 2023, por el Centro de Ciencia de Datos, EGobiernoyTP.**

### Sesión 4: Exploración de bases de datos (pandas 1)

1. Generalidades de bases de datos
    - ¿Cuántas variables y observaciones tenemos?
    - Diccionario de variables
    - Explorando más
2. Tipos de datos en db
    - Cambiar tipos de datos
        - str
        - float
        - int
        - datetime
3. Variables categóricas
4. Variables numéricas
5. Variables temporales
6. NA's
    - Drop
    - Replace
7. Subconjuntos de bases
    - Quitar columnas
    - Seleccionar subconjuntos de la base
    - Seleccionar subconjuntos basados en condiciones
8. Reset index


In [None]:
# Paquetes
import numpy as np
import pandas as pd

### Algunas líneas de set-up útiles

**Para ver 200 filas en el notebook**

In [None]:
pd.set_option('display.max_rows', 2000)

**Para ver 10 columnas en el notebook**

In [None]:
pd.set_option('display.max_columns', 10)

## 1. Generalidades de bases de datos

In [None]:
# Datos
df = pd.read_csv('../datos/indicadores.csv', dtype='str')

In [None]:
df

### 1.1 ¿Cuántas variables y observaciones tenemos?

In [None]:
df.shape

In [None]:
# Renglones
df.shape[0]

In [None]:
# Columnas
df.shape[1]

In [None]:
# Nombre de columnas
df.columns

### 1.2 Diccionario de variables

Con cada base de datos con la que trabajes DEBES de tener el significado de cada variable para poder trabajar adecuadamente. A continuación el diccionario de la base con la que estaremos mostrando pandas.

1. `renglon`
2. `año`
3. `entidad`
4. `cve_geo`
5. `cre_nat` = Crecimiento natural
6. `cre_soc` = Crecimiento social
7. `cre_tot` = Crecimiento total
8. `def` = Defunciones
9. `edad_med` = Edad Mediana
10. `emi_est` = Emigrantes interestatales
11. `emi_int` = Emigrantes internacionales
12. `evh` = Esperanza de vida al nacimiento de hombres
13. `evm` = Esperanza de vida al nacimiento de mujeres
14. `ev` = Esperanza de vida al nacimiento total
15. `hom_mit_año` = Hombres mitad de año
16. `ind_env` = Índice de Envejecimiento
17. `inm_est` = Inmigrantes interestatales
18. `inm_int` = Inmigrantes internacionales
19. `mig_net_est` = Migración neta interestatal
20. `mig_net_int` = Migración neta internacional
21. `muj_mit_año` = Mujeres mitad de año
22. `nac` = Nacimientos
23. `pob_mit_año` = Población mitad de año
24. `muj_12_14` = Mujeres edad entre 12 y 14
25. `muj_15_29` = Mujeres edad entre 15 y 29
26. `muj_15_49` = Mujeres edad entre 15 y 49
27. `muj_18_24` = Mujeres edad entre 18 y 24
28. `muj_3_5` = Mujeres edad entre 3 y 5
29. `muj_30_64` = Mujeres edad entre 30 y 64
30. `muj_6_11` = Mujeres edad entre 6 y 11
31. `muj_65_mas` = Mujeres de 65 años y más
32. `hom_12_14` = Hombres edad entre 12 y 14
33. `hom_15_29` = Hombres edad entre 15 y 29
34. `hom_15_49` = Hombres edad entre 15 y 49
35. `hom_18_24` = Hombres edad entre 18 y 24
36. `hom_3_5` = Hombres edad entre 3 y 5
37. `hom_30_64` = Hombres edad entre 30 y 64
38. `hom_6_11` = Hombres edad entre 6 y 11
39. `hom_65_mas` = Hombres de 65 años y más
40. `pob_12_14` = Población edad entre 12 y 14
41. `pob_15_29` = Población edad entre 15 y 29
42. `pob_15_49` = Población edad entre 15 y 49
43. `pob_18_24` = Población edad entre 18 y 24
44. `pob_3_5` = Población edad entre 3 y 5
45. `pob_30_64` = Población edad entre 30 y 64
46. `pob_6_11` = Población edad entre 6 y 11
47. `pob_65_mas` = Población de 65 años y más
48. `raz_dep_adu` = Razón de dependencia adulta
49. `raz_dep_inf` = Razón de dependencia infantil
50. `raz_dep` = Razón dependencia total
51. `t_bru_mor` = Tasa bruta de mortalidad
52. `t_bru_nat` = Tasa de natalidad
53. `t_cre_nat` = Tasa de crecimiento natural
54. `t_cre_soc` = Tasa de crecimiento social
55. `t_cre_tot` = Tasa de crecimiento total
56. `t_emi_est` = Tasa de emigración interestatal
57. `t_inm_est` = Tasa de inmigración neta interestatal
58. `t_mig_net_est` = Tasa de migración neta interestatal
59. `t_mig_net_int` = Tasa de migración neta internacional
60. `tmih` = Tasa de mortalidad infantil hombres
61. `tmim` = Tasa de mortalidad infantil mujeres
62. `tmi` = Tasa de mortalidad infantil
63. `tef_ado` = Tasa específica de fecundidad adolescente
64. `tgf` = Tasa global de fecundidad
65. `fecha_reg`= Fecha registro


### 1.3 Explorando más:

In [None]:
# Las primeras 5 observaciones
df.head(5)

In [None]:
# Las últimas 5 observaciones
df.tail(5)

In [None]:
# Muestra aleatoria de 5 observaciones, con semilla para que sea reproducible.
df.sample(5,random_state=123)

In [None]:
# Muestra aletoria del 10% de las observaciones con semilla para que sea reproducible.
df.sample(frac=0.01, random_state=123)

In [None]:
# Para mandar a llamar una columna específica de la base se puede de las siguientes dos maneras:

In [None]:
df['entidad']

In [None]:
df.entidad

In [None]:
df[['año','entidad']] # dos columnas

In [None]:
# Para ver las columnas de la base
df.columns

In [None]:
# Información general de la base
df.info()

## 2. Tipos de datos en db

Cuando trabajes con datos, muchas veces vendrán en diferentes formatos, antes de hacer cualquier limpieza o revisión, debes de asegurarte con que tipo de dato estarás trabajando. Este es un proceso largo porque tienes que conocer columna por columna, saber de qué se trata, etc. Para efectos de la sesión, se te enseñará la técnica para cambiar columnas. 

Primero tienes que ver con qué tipos de datos trabajas:

In [None]:
df.dtypes

### 2.1 Cambiar tipo de datos

Generalmente, sucede que las bases de datos que nos comparten no vienen en formato adecuado, por lo que a continuación veremos comandos para cambiar tipos de datos.

#### Hacer variable de tipo carácter (str)

In [None]:
df['renglon'] = df['renglon'].astype('str')

#### Hacer variable de tipo numérica: entero (int) o flotante (float64)

In [None]:
# Aquí estamos cambiando la variable año a tipo entero, SIN asignarla de nuevo a la base de datos, 
# para hacer el cambio debes asignarla de nuevo a la misma columna de la base
# (ve la línea anterior)
df['renglon'].astype('int')

In [None]:
df['renglon'].astype('float64')
# Observa como para este formato se está agregando un cero al último por lo que es un flotante

Conforme exploras la base de datos sabrás cuáles son las variables numéricas, para efectos del ejecicio te dejamos todas las que son numéricas.

In [None]:
columnas_num = ['edad_med', 'evh', 'evm', 'ev', 'ind_env', 'raz_dep_adu', 'raz_dep_inf', 
                'raz_dep','t_bru_mor', 't_bru_nat', 't_cre_nat', 'tmih', 'tmim', 'tmi', 
                'tef_ado', 'tgf', 'año','cve_geo','cre_nat','def','hom_mit_año','muj_mit_año',
                'nac','pob_mit_año','muj_12_14','muj_15_29', 'muj_15_49','muj_18_24',
                'muj_3_5','muj_30_64','muj_6_11', 'muj_65_mas','hom_12_14','hom_15_29',
                'hom_15_49','hom_18_24', 'hom_3_5','hom_30_64','hom_6_11','hom_65_mas',
                'pob_12_14', 'pob_15_29','pob_15_49','pob_18_24','pob_3_5','pob_30_64',
                'pob_6_11','pob_65_mas']

In [None]:
df[columnas_num] = df[columnas_num].astype('float64')

A veces es mejor guardar las variables como enteros que como flotante.

In [None]:
columnas_enteros = ['año','cve_geo','cre_nat','def','hom_mit_año',
                    'muj_mit_año','nac','pob_mit_año','muj_12_14','muj_15_29',
                    'muj_15_49','muj_18_24','muj_3_5','muj_30_64','muj_6_11',
                    'muj_65_mas','hom_12_14','hom_15_29','hom_15_49','hom_18_24',
                    'hom_3_5','hom_30_64','hom_6_11','hom_65_mas','pob_12_14',
                    'pob_15_29','pob_15_49','pob_18_24','pob_3_5','pob_30_64',
                    'pob_6_11','pob_65_mas']

In [None]:
df[columnas_enteros] = df[columnas_enteros].astype('int64')

In [None]:
# Otra manera de hacer la variable numérica 
df['año'] = pd.to_numeric(df['año'], errors='coerce', downcast='integer')

In [None]:
# Observa como el tipo de columna es diferente a la base original
df.dtypes

#### Hacer variable de tipo temporal

In [None]:
df['fecha_reg'] = pd.to_datetime(df['fecha_reg'])

Una vez que tienes ubicadas las variables de la base puedes comenzar a realizar análisis sencillos para explorar la base, dependiendo del tipo de variable es el análisis que puedes realizar.


### 3. Para variables categorícas

In [None]:
# Valores únicos por variable. En las variables string aparecerán el número de categorías únicas
df.nunique()

**Si queremos evaluar más a detalle una variable categórica:**

In [None]:
# Categorías en variable
df['entidad'].unique()

In [None]:
#  Vemos el número de observaciones por categoría de esta variable
conteos = df['entidad'].value_counts()
conteos

In [None]:
# Proporción de categorías
prop = df['entidad'].value_counts(normalize=True)

In [None]:
# Lo visualizamos mejor:
pd.concat([conteos,prop], # observa que aquí estamos concatenando las dos columnas antes creadas 
          keys=['num','prop'], 
          axis=1)

### 4. Variables numéricas

In [None]:
# Todas las variables que son numéricas las describe con esas características.
df.describe()

### 5. Variables temporales

In [None]:
# Para obtener el mes de la variable que previamente ya habíamos hecho temporal
df['mes'] = df['fecha_reg'].dt.month

In [None]:
# Año
df['fecha_reg'].dt.year

### 6. NA's

Los NAs son comunes en bases de datos, y el manejo de ellos depende de muchos factores. Antes de hacer cualquier operación sobre ellos debes de entender el contexto de la base y qué significa cada NA en las columnas en las que aparece. 

Para explorar el número de NA's por columna:

In [None]:
df.isna().any()  # Para columna evalúa True sí tiene NAs

In [None]:
df.isna().sum()  # Hace la suma de NAs por columna

Realmente no hay una manera óptima para manejar valores faltantes, como mencionamos antes depende de la base de datos. En algunos casos puedes elegir hacer drop de los values o reemplazarlos. 

Ojo porque ambas operaciones tienen implicaciones sobre todo el conjunto de datos. Debes manejarte con ética, responsabilidad y cuidado a la hora de manejarlos. Una vez que estás seguro de hacer cambios sobre los NA's debes documentar, presentar y tener buenos argumentos para justificar tus decisiones. 

#### Drop de NAs

Se puede hacer por columna o por fila con `dropna()`, si `axis=0` entonces es renglón, si es `axis=1` entonces es columna. 

Ejemplo:

In [None]:
df_na = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 ,None, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', '--', np.nan, 'd'],
'column_d':[True, True, np.nan, None, False, True, False]
})

In [None]:
df_na

In [None]:
df_na.isna().any() 

In [None]:
df_na.isna().sum() 

In [None]:
df_na.dropna(axis=0) # Este quita los renglones que tienen NAs 

In [None]:
df_na.dropna(axis=1)  # Este quita todas las columnas que tienen NAs

Reemplazo de NAs

In [None]:
df_na.fillna(25)

In [None]:
media = df_na['column_a'].mean()
df_na['column_a'].fillna(media)

### 7. Subconjuntos de base de datos

#### 7.1 Quitando columnas

In [None]:
df.drop(['tmim',
         'tmi',
         'tef_ado'], 
        axis=1, # 0 es por filas y 1 por columnas.
        inplace=True # True es para guardar los cambios sobre la misma base. 
       )

#### 7.2 Seleccionando subconjuntos de la base

`.loc` vs `.iloc`

- `.loc`: utiliza las etiquetas de los índices y de las columnas, es decir el nombre como un string.

- `.iloc`: utiliza la posición como entero del dataframe.

Seleccionamos todas las filas (`:`), de las columnas que están desde la posición 0 hasta la 3, y luego las columnas 4, 8, 10.

In [None]:
df.iloc[:,0:3]

In [None]:
df.iloc[:,[0,2,4]]

In [None]:
# Selecciona las filas 2 hasta la 6
df.iloc[2:6,]

In [None]:
# Selecciona filas con los índices 122, 126 y 208:
df.iloc[[122,126,208],]

Seleccionar columnas de acuerdo a las etiquetas de las columnas

In [None]:
# Seleccionando mujeres
df.loc[:,'muj_12_14':'muj_65_mas']

In [None]:
df.loc[:,['hom_15_29','hom_18_24','hom_6_11']]

In [None]:
df.loc[0:1,]

#### 7.3 Selecionar filas basadas en condiciones

In [None]:
df[(['hom_6_11','hom_3_5','hom_12_14','año'])].query('2049 < año')

##### Buscar condiciones en filas

In [None]:
df['entidad'].unique()

In [None]:
# seleccionar solo las categorias que tienen corredor y autopista
categories_interes = ['Guanajuato', 'Tlaxcala']
df[df['entidad'].isin(categories_interes)].query('año == 2005')

### 8. Reset index

El index termina siendo importante en la exploración:

In [None]:
df2 = df[df['entidad'].str.contains('Baja California')]

In [None]:
# nueva columna con el index
df2.reset_index().head()

In [None]:
# Hace un drop del index
df2.reset_index(drop=True).head()

In [None]:
# Quita el index sobre la base de datos df2
df2.reset_index(inplace=True)

In [None]:
df2.head()