<a href="https://colab.research.google.com/github/SimonGsponer/Introduciendo_Python_Para_Ciencias_Sociales/blob/main/Analysis_de_Datos_Para_Ciencias_Sociales_Clase_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducci√≥n a An√°lisis de Datos Para Ciencias Sociales

En esta clase vamos a aprender los primeros pasos para analisar un conjunto de datos con el m√≥dulo `pandas`

**Enlaces Importantes**:
* [Documentaci√≥n Pandas](https://pandas.pydata.org/pandas-docs/version/1.5/reference/api/pandas.Series.values.html) -> aseg√∫rese de que uses la versi√≥n correcta de la documentaci√≥n
* [Gu√≠a del usario oficial de Pandas](https://pandas.pydata.org/docs/user_guide/index.html)

# 1.0 Primeros Pasitos

## Trabajando con nuestro primer DataFrame

In [5]:
import pandas as pd

In [4]:
# para nuestros primeros pasitos con pandas, vamos a usar un conjunto de datos artificial que definimos m√°s abajo

filas = [
    (35, 'M', 5_000_000, False),
    (18, 'F', 10_000_000, True),
    (25, 'F', 7_000_000, True),
    (40, 'M', 3_000_000, False),
    (22, 'F', 10_000_000, False),
    (21, 'F', 2_000_000, False)
]

columnas = ['edad', 'sexo', 'sueldo_anual', 'habla_ingl√©s']

df = pd.DataFrame(data=filas, columns=columnas)

Ahora, necesitamos familiarizarnos con 3 conceptos importantes:
* **√çndice:** Son los n√∫meros de 0 a 5 al lado izquierdo. En este ejemplo tenemos un √≠ndice num√©rico, pero un √≠ndice tambi√©n puede ser un n√∫mero de identificaci√≥n, una marca de tiempo o cualquier informaci√≥n que identifique solamente una (!) fila.
* **Serie:** Una columna sola se llama `serie` en pandas. `edad` es una serie, y por supuesto `sexo`, `sueldo_anual` y `habla_ingl√©s` tambi√©n.
* **DataFrame:** El dataframe es el √≠ndice y todas las series juntos, constituyendo el conjunto de datos.

En general, estos objetos (`√çndice`, `Serie`, `DataFrame`) tienen 'herramientas' (t√©rmino correcto ser√° m√©todos) y informaciones de si mismo (atributos) diferentes, as√≠ es muy importante saber cuando usted est√° trabajando con cual.

## DataFrame Slicing

DataFrame slicing es el proceso de seleccionar ciertas filas y columnas de un DataFrame. Para la selecci√≥n se puede usar dos m√©todos del DataFrame: `loc` (seleccionando filas/columnas por valores) y `iloc` (seleccionando filas/columnas por su posici√≥n). 

Los m√©todos .loc y .iloc se invocan usando corchetes y necesitan dos informaciones: la selecci√≥n deseada de las filas y la selecci√≥n deseade de columnas.

**`.loc`**

In [5]:
sub_df = df.loc[:,:] # : significa "todo", o sea sub_df contiene todas filas y todas columnas
print(sub_df)

   edad sexo  sueldo_anual  habla_ingl√©s
0    35    M       5000000         False
1    18    F      10000000          True
2    25    F       7000000          True
3    40    M       3000000         False
4    22    F      10000000         False
5    21    F       2000000         False


In [6]:
sub_df = df.loc[[2,3], :] # selecciona las filas que tienen el valor de √≠ndice 2 y 3, y todas columnas
print(sub_df)

   edad sexo  sueldo_anual  habla_ingl√©s
2    25    F       7000000          True
3    40    M       3000000         False


In [7]:
sub_df = df.loc[:, ['edad', 'sueldo_anual']] # selecciona todas filas pero solamente las columnas 'edad' y 'sueldo_anual'
print(sub_df)

   edad  sueldo_anual
0    35       5000000
1    18      10000000
2    25       7000000
3    40       3000000
4    22      10000000
5    21       2000000


In [8]:
sub_df = df.loc[~df.index.isin([2,3]), ['edad']] # selecciona todas filas aparte de aquellas que tienen el valor de √≠ndice 2 & 3; selecciona la columna edad
print(sub_df)

   edad
0    35
1    18
4    22
5    21


In [19]:
sub_df = df.loc[df['edad'].gt(35), :] # selecciona todas filas donde la persona tiene m√°s de 35 a√±os
print(sub_df)

   edad sexo  sueldo_anual  habla_ingl√©s
3    40    M       3000000         False


In [24]:
sub_df = df.loc[
    (
        (df['edad'].gt(24))
        & (df['sueldo_anual'].ge(5_000_000))
    ), :] # selecciona todas filas donde la persona tiene m√°s de 24 a√±os y gana 5,000,000 colones o m√°s
print(sub_df)

   edad sexo  sueldo_anual  habla_ingl√©s
2    25    F       7000000          True
0    35    M       5000000         False


**`.iloc`**

Para entender mejor la diferencia entre el valor del √≠ndice y la posici√≥n de la fila, vamos a mezclar nuestro DataFrame.

In [9]:
df = df.sample(frac=1) # hacemos una muestra del conjunto de datos y usamos 100% del conjunto como muestra
print(df)

   edad sexo  sueldo_anual  habla_ingl√©s
2    25    F       7000000          True
5    21    F       2000000         False
1    18    F      10000000          True
3    40    M       3000000         False
4    22    F      10000000         False
0    35    M       5000000         False


In [10]:
sub_df = df.iloc[[1],[1]] # selecciona la segunda fila y la segunda columna; IMPORTANTE: los √≠ndices en python empiezan a 0!
print(sub_df)

  sexo
5    F


In [17]:
sub_df = df.iloc[1:4, 1:2] # nota: especificando rangos (selecciona segunda fila hasta la cuarta) no require corchetes dentro las corchetes principales
print(sub_df)


  sexo
5    F
1    F
3    M


## Aggregaciones y Agrupaciones

Sin an√°lisis adicional, solamente filtrar datos no sirve mucho. Por eso, vamos a ver como se puede aggregar datos para obtener la media, suma, etc.

In [29]:
edad_promedia = df.loc[df['sexo']=='F',['edad']].mean() # la edad promedia de las mujeres en nuestro conjunto de datos
print(edad_promedia)

edad    21.5
dtype: float64


In [33]:
agg_df = df.loc[df['sexo']=='F', :].agg({'edad': 'mean', 'sueldo_anual': 'sum'}) # con agg podemos especificar m√°s aggregaciones a la vez
print(agg_df)

edad                  21.5
sueldo_anual    29000000.0
dtype: float64


In [36]:
agg_df = (
    df
    .groupby(['sexo'])
    .agg(
          {
            'edad': 'mean',
            'sueldo_anual': ['sum', 'max', 'min']
           }
         )
    ) # usamos 'groupby' para obtener las mismas agregaciones para chicos tambi√©n

print(agg_df)

      edad sueldo_anual                   
      mean          sum       max      min
sexo                                      
F     21.5     29000000  10000000  2000000
M     37.5      8000000   5000000  3000000


## Pr√°ctica de Cap√≠tulo 1.0

Para la pr√°ctica, use el dataframe `practica_df` que se define m√°s abajo

In [6]:
import numpy as np

In [23]:
# para nuestros primeros pasitos con pandas, vamos a usar un conjunto de datos artificial que definimos m√°s abajo

filas = [
    (1980, 'M', 500_000, 200, np.NaN),
    (2001, 'F', 400_000, 180, 7),
    (1995, 'F', 300_000, np.NaN, 6),
    (2004, 'M', 700_000, 150, 5),
    (1992, 'F', 1_000_000, 250, 12),
    (1985, 'F', np.NaN, np.NaN, 8),
    (1998, 'M', 350_000, 7, 10),
    (1997, 'F', 800_000, 9, 9)
]

columnas = ['fecha_de_nacimiento', 'sexo', 'sueldo_mensual', 'n_dias_de_trabajo_anual', 'n_horas_por_dia']

practica_df = pd.DataFrame(data=filas, columns=columnas)

In [21]:
# 1.1 Cree una columna nueva que contiene el salario anual con el nombre `salario_anual`.
# Truco: acu√©rdese de las operaciones matem√°ticas b√°sicas

practica_df['sueldo_anual'] =

# 1.2 Cree una columna nueva que contiene el edad de las personas encuestadas.
# Supongamos que estos datos hayan sido coleccionado en el a√±o 2022.

# 1.3 El conjuncto de datos lleva la informaci√≥n del total de los dias que las personas trabajan
# por a√±o y el n√∫mero de horas que trabajan en promedio. Use esta informaci√≥n para calcular el n√∫mero de horas
# que trabajan en total por a√±o.

# 1.4 Calcule el promedio sueldo de las personas en el conjunto de datos

# 1.5 Use el promedio sueldo para remplazar las observaciones que faltan (los np.NaN).
# H√°galo para las dos columnas conteniendo informaci√≥n del sueldo

promedio_sueldo_mensual =
promedio_sueldo_anual =

practica_df['sueldo_mensual'].fillna(
    value=promedio_sueldo_mensual,
    inplace=True
)
practica_df['sueldo_anual'] = practica_df['sueldo_anual'].fillna(
    value=promedio_sueldo_anual,
    inplace=False
)

# 1.6 ¬øQu√© hace la palabra clave `inplace` en el ejercicio 1.5?

# 1.7 ¬øEn promedio cu√°ntas horas trabajan los hombres y las muyeres encuestados por a√±o?
# Calcule los dos promedios.

# 1.8 Cree un conjunto de datos que se llama `sub_df` y que contiene todas las personas que
# tengan m√°s de 25 a√±os y que tengan un sueldo anual de m√°s de 1'000'000 colones.

# 1.9 ¬øC√∫al es la diferencia entre los siguientes objetos? ¬øPor qu√© importa la diferencia?

objeto_a = practica_df.loc[:, 'sueldo_mensual']
objeto_b = practica_df.loc[:, ['sueldo_mensual']]

KeyError: ignored

In [22]:
practica_df

Unnamed: 0,fecha_de_nacimiento,sexo,sueldo_mensual,n_dias_de_trabajo_anual,n_horas_por_dia
0,1980,M,500000.0,200.0,
1,2001,F,400000.0,180.0,7.0
2,1995,F,300000.0,,6.0
3,2004,M,700000.0,150.0,5.0
4,1992,F,1000000.0,250.0,12.0
5,1985,F,1.0,,
6,1998,M,350000.0,7.0,
7,1997,F,800000.0,9.0,


# ‚ö†Ô∏è Zona de Construcci√≥n ‚ö†Ô∏èüë∑

## Inicializaci√≥n

**El prop√≥sito principal de esta secci√≥n es crear el entorno para trabajar, y cargar todos los conjuntos de datos que usemos.**

* Es m√°s legible importar todos los m√≥dulos al inicio ([PEP-8](https://peps.python.org/pep-0008/))
* Si usted necesita instalar algun m√≥dulo (como lo hacemos con `pyreadstat`), siempre incluye la versi√≥n del m√≥dulo que necesitemos





In [1]:
# ¬øC√≥mo saber cual version que instalar?
# pd.__version__ -> abrir environment.yaml 
%pip install pyreadstat>=1.1.5

In [5]:
import pandas as pd
import numpy as np

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [6]:
ruta_spss = '/content/drive/My Drive/analisis_datos_ciencias_sociales/III Trimestre 2022.sav'

In [7]:
df = pd.read_spss(ruta_spss)

## Introducci√≥n a Pandas

In [11]:
# df es un dataframe, o sea el objecto que contiene nuestro conjunto de datos. ¬øPero c√≥mo se puede ver nuestros datitos?
# Use `df.head()` o `df.tail()` para ver las primeras/√∫ltimas filas. Estos m√©todos tambi√©n permiten especificar el
# n√∫mero de filas usando la palabra clave `n`
df.head(n=2)

Unnamed: 0,ID_AMO,ID_TRIMESTRE,ID_VIVIENDA,ID_HOGAR,ID_LINEA,Sexo,Edad,Estado_conyugal,Lugar_nacimiento,Permanencia_pais,...,Asalariado_TeletrabajoCOVID19,Ocupados_con_Conectividad,Consecutivo,N_hogar,Grupo_edad,Ingreso_principal_nomonetario,Poblacion_joven,Poblacion_adulto,Joven_nini,Tipo_seguro
0,2022.0,3.0,1.0,1.0,1.0,Mujer,92.0,...viudo(a)?,En otro cant√≥n,,...,,,880.0,1.0,60 y m√°s,,,Poblaci√≥n adulta,,"...pensionado de la CCSS, Magisterio, u otro?"
1,2022.0,3.0,1.0,1.0,2.0,Mujer,54.0,...soltero(a)?,En otro cant√≥n,,...,No realiza teletrabajo,,880.0,0.0,45 a 59 a√±os,453100.0,,Poblaci√≥n adulta,,...cuenta propia o voluntario?


In [15]:
# Para obtener informaci√≥n b√°sica sobre el conjunto de datos como el n√∫mero de filas y columnas, use el atributo `.shape`
df.shape

(23484, 388)

In [16]:
# Ya que pandas no est√° dese√±ado para mostrar todos los datos de un dataframe,
# todas las columnas se pueden mostrar √∫nicamente recorri√©ndolas a la vez.
# Para alcanzarlo, usamos el atributo `.columns` que contiene todas columnas de un dataframe como una lista.

for col in df.columns:
  print(col)

ID_AMO
ID_TRIMESTRE
ID_VIVIENDA
ID_HOGAR
ID_LINEA
Sexo
Edad
Estado_conyugal
Lugar_nacimiento
Permanencia_pais
Permanencia_intension
Permanencia_motivo
Seguro
Regimen_pension
Plan_voluntario
Educacion_asiste
Educacion_nivel_grado
Educacion_codigotitulo
EducacionNoregular_asiste
EducacionNoregular_codigo
EducacionNoregular_institucion
Idioma
Idioma_cual
Trabajo
Trabajo_marginal
Actividad_sinpaga
Ausente
Motivo_ausente
Desea_trabajar
Busca_trabajo
Motivo_nobusco
Cod_empresa
Lugar_trabajo
Cod_rama
Cod_rama_5digitos
Herramientas
Cod_ocupacion
Horas_normales_principal
Horas_extras_principal
Horas_menos_principal
Horas_efectivas_principal
Cantidad_personas
Lugar_tareas
Empresa_paga
Cod_empresa_paga
Cod_rama_paga
Cod_rama_paga_5digitos
D1
D2
D3
D4
D5
D5A
D6A
D6B
D6C
D6D
D7
D8
D9
D10
D12A
D13
D14_1
D14_2
D14A_1
D15A
D15B
D15C
D15D
D15E
D16
D17
D18
D18_1
D18A
D20
D22
D22A
D23
D23A
D24
D24_1
D24A
D25A
D26A
D27
E1
E2
E3
E3A
E4
E5_1
E5_2
E5A
E6A
E6B
E6C
E6D
E6E
E7
E8
E8A
E9A
E9B
E9C
E9D
E9E
E10A
E1

## Exploraci√≥n 

un 

In [None]:
df['Idioma_cual'].unique()

['...franc√©s?', NaN, '...ingl√©s?', '...espa√±ol?', '...otro?', '...alem√°n?']
Categories (5, object): ['...alem√°n?', '...espa√±ol?', '...franc√©s?', '...ingl√©s?', '...otro?']

In [None]:
salario_columnas = [col for col in df.columns if "salar" in col]

ID_AMO
ID_TRIMESTRE
ID_VIVIENDA
ID_HOGAR
ID_LINEA
Sexo
Edad
Estado_conyugal
Lugar_nacimiento
Permanencia_pais
Permanencia_intension
Permanencia_motivo
Seguro
Regimen_pension
Plan_voluntario
Educacion_asiste
Educacion_nivel_grado
Educacion_codigotitulo
EducacionNoregular_asiste
EducacionNoregular_codigo
EducacionNoregular_institucion
Idioma
Idioma_cual
Trabajo
Trabajo_marginal
Actividad_sinpaga
Ausente
Motivo_ausente
Desea_trabajar
Busca_trabajo
Motivo_nobusco
Cod_empresa
Lugar_trabajo
Cod_rama
Cod_rama_5digitos
Herramientas
Cod_ocupacion
Horas_normales_principal
Horas_extras_principal
Horas_menos_principal
Horas_efectivas_principal
Cantidad_personas
Lugar_tareas
Empresa_paga
Cod_empresa_paga
Cod_rama_paga
Cod_rama_paga_5digitos
D1
D2
D3
D4
D5
D5A
D6A
D6B
D6C
D6D
D7
D8
D9
D10
D12A
D13
D14_1
D14_2
D14A_1
D15A
D15B
D15C
D15D
D15E
D16
D17
D18
D18_1
D18A
D20
D22
D22A
D23
D23A
D24
D24_1
D24A
D25A
D26A
D27
E1
E2
E3
E3A
E4
E5_1
E5_2
E5A
E6A
E6B
E6C
E6D
E6E
E7
E8
E8A
E9A
E9B
E9C
E9D
E9E
E10A
E1

In [None]:
salario_columnas

['Clasificacion_asalariado',
 'Ingreso_asalariado',
 'Ingreso_asalariado_bruto',
 'Asalariado_Incidencia_IngresoCOVID19',
 'Asalariado_Afectaci√≥n_JornadaCOVID19',
 'Asalariado_TeletrabajoCOVID19']

In [None]:
df[salario_columnas]

Unnamed: 0,Clasificacion_asalariado,Ingreso_asalariado,Ingreso_asalariado_bruto,Asalariado_Incidencia_IngresoCOVID19,Asalariado_Afectaci√≥n_JornadaCOVID19,Asalariado_TeletrabajoCOVID19
0,,,,,,
1,No tienen rebajos de seguro social,1.602354e+06,1.602354e+06,,,No realiza teletrabajo
2,,,,,,
3,Tienen rebajos de seguro social,3.773499e+06,5.028731e+06,,,"S√≠, por el COVID-19, le aumentaron e inici√≥ te..."
4,Tienen rebajos de seguro social,3.764042e+05,4.174842e+05,,,No realiza teletrabajo
...,...,...,...,...,...,...
23479,,,,,,
23480,,,,,,
23481,,,,,,
23482,,,,,,


In [None]:
df['Nivel_educativo'].value_counts()

Secundaria incompleta       4511
Primaria completa           4471
Secundaria completa         2980
Universitario con t√≠tulo    2393
Primaria incompleta         2144
Universitario sin t√≠tulo    1079
Ninguno                      686
No especificado               11
Name: Nivel_educativo, dtype: int64

In [None]:
df['Idioma_cual']

0        ...franc√©s?
1                NaN
2                NaN
3         ...ingl√©s?
4                NaN
            ...     
23479            NaN
23480            NaN
23481            NaN
23482            NaN
23483            NaN
Name: Idioma_cual, Length: 23484, dtype: category
Categories (5, object): ['...alem√°n?', '...espa√±ol?', '...franc√©s?', '...ingl√©s?', '...otro?']

In [None]:
df['Ingreso_asalariado_bruto'] = df['Ingreso_asalariado_bruto'].astype(float)

In [None]:
# Grupo_edad vs Edad
agg_df = (
    df
    .loc[:, ['Sexo', 'Grupo_edad', 'Ingreso_asalariado_bruto']]
    .groupby(['Sexo', 'Grupo_edad'])
    .agg({'Ingreso_asalariado_bruto': ['mean', 'count']})
    )

In [None]:
print(agg_df)

                    Ingreso_asalariado_bruto      
                                        mean count
Sexo   Grupo_edad                                 
Hombre 15 a 24 a√±os            334578.177438   441
       25 a 34 a√±os            476685.973037   989
       35 a 44 a√±os            575010.645646   888
       45 a 59 a√±os            588191.482578   861
       60 y m√°s                459495.629630   207
       Ignorado                          NaN     0
Mujer  15 a 24 a√±os            346276.206637   221
       25 a 34 a√±os            473814.279594   673
       35 a 44 a√±os            576843.811978   718
       45 a 59 a√±os            546937.182529   746
       60 y m√°s                471115.624183   102
       Ignorado                          NaN     0


Categor√≠as de `Idioma_cual`: ['...alem√°n?', '...espa√±ol?', '...franc√©s?', '...ingl√©s?', '...otro?', 'ning√∫n']


In [None]:
print(f"Categor√≠as de `Idioma_cual`: {list(df['Idioma_cual'].cat.categories)}")
df['Idioma_cual'] = (
    df['Idioma_cual']
    .cat.add_categories("ning√∫n")
    .fillna("ning√∫n")
    .cat.remove_categories(np.NaN)
    )
print(f"Categor√≠as actualizadas de `Idioma_cual`: {list(df['Idioma_cual'].cat.categories)}")

# Idioma_cual
agg_df = (
    df
    .loc[:, ['Idioma_cual', 'Ingreso_asalariado_bruto']]
    .groupby(['Idioma_cual'])
    .agg({'Ingreso_asalariado_bruto': ['mean', 'count']})
    )

In [None]:
# TODO: boxplot across Idioma_Cual & Grado

Unnamed: 0_level_0,Ingreso_asalariado_bruto,Ingreso_asalariado_bruto
Unnamed: 0_level_1,mean,count
Idioma_cual,Unnamed: 1_level_2,Unnamed: 2_level_2
...alem√°n?,,0
...espa√±ol?,713750.0,2
...franc√©s?,774791.666667,4
...ingl√©s?,864966.484631,488
...otro?,795474.738095,7
ning√∫n,479812.446227,5345


Index(['...alem√°n?', '...espa√±ol?', '...franc√©s?', '...ingl√©s?', '...otro?',
       'ning√∫n'],
      dtype='object')

In [None]:
df.loc[:, 'Ingreso_asalariado_bruto']

  output = repr(obj)


0                 NaN
1        1.602354e+06
2                 NaN
3        5.028731e+06
4        4.174842e+05
             ...     
23479             NaN
23480             NaN
23481             NaN
23482             NaN
23483             NaN
Name: Ingreso_asalariado_bruto, Length: 23484, dtype: category
Categories (1822, float64): [2000.0, 4000.0, 8000.0, 10000.0, ..., 4.208333e+06, 4.513333e+06,
                             5.028731e+06, 6.860871e+06]

### Exploraci√≥n de la variable `Edad`

In [1]:
df['Edad'].cat.categories

NameError: ignored

In [None]:
for val, count in df['Edad'].value_counts().items():
  print(val, count)

## ¬øCu√°ntos son las primas educativas en Costa Rica?

Scatterplot: 
* Color Educaci√≥n -> Tambi√©n con grupos m√°s generales
* eje y -> edad (variable n√∫merica)
* eje x -> sueldo

Boxplot con visualisaciones multiples
* visualisaci√≥n por nivel educativo
* sin colores

14.0 430
12.0 412
30.0 411
10.0 410
16.0 401
18.0 393
11.0 391
6.0 382
36.0 382
13.0 379
15.0 375
23.0 375
8.0 374
9.0 371
28.0 370
21.0 367
22.0 361
35.0 360
40.0 358
32.0 358
42.0 357
17.0 353
20.0 352
4.0 351
50.0 346
19.0 346
25.0 344
38.0 341
5.0 340
33.0 337
37.0 332
31.0 329
26.0 329
3.0 326
52.0 324
7.0 318
27.0 314
34.0 314
29.0 304
24.0 303
44.0 295
39.0 291
47.0 289
53.0 286
56.0 285
45.0 284
58.0 283
43.0 277
57.0 274
54.0 273
51.0 270
65.0 265
60.0 265
41.0 261
2.0 258
48.0 255
55.0 254
49.0 245
46.0 241
62.0 237
1.0 236
63.0 234
Menor de un a√±o 231
61.0 211
59.0 207
64.0 207
67.0 195
66.0 177
68.0 170
70.0 169
72.0 167
69.0 139
73.0 138
71.0 128
75.0 108
74.0 105
76.0 101
77.0 96
79.0 81
78.0 78
82.0 72
80.0 72
81.0 65
83.0 53
84.0 52
85.0 38
87.0 38
89.0 35
88.0 31
86.0 30
90.0 29
93.0 18
91.0 13
97 a√±os y m√°s 12
92.0 10
94.0 10
96.0 8
95.0 6
Mayor de 15 a√±os con edad ignorada 6


In [40]:
df.loc[
    (
        (df['Edad']!='Mayor de 15 a√±os con edad ignorada')
        & (df['Edad']!='97 a√±os y m√°s 12')
        & (df['Edad']!='Menor de un a√±o') 
    ), ['Grupo_edad', 'Edad']]

Unnamed: 0,Grupo_edad,Edad
0,60 y m√°s,92.0
1,45 a 59 a√±os,54.0
2,60 y m√°s,80.0
3,45 a 59 a√±os,59.0
4,35 a 44 a√±os,44.0
...,...,...
23479,,14.0
23480,,11.0
23481,,5.0
23482,60 y m√°s,91.0


14.0 430
12.0 412
30.0 411
10.0 410
16.0 401
18.0 393
11.0 391
6.0 382
36.0 382
13.0 379
15.0 375
23.0 375
8.0 374
9.0 371
28.0 370
21.0 367
22.0 361
35.0 360
40.0 358
32.0 358
42.0 357
17.0 353
20.0 352
4.0 351
50.0 346
19.0 346
25.0 344
38.0 341
5.0 340
33.0 337
37.0 332
31.0 329
26.0 329
3.0 326
52.0 324
7.0 318
27.0 314
34.0 314
29.0 304
24.0 303
44.0 295
39.0 291
47.0 289
53.0 286
56.0 285
45.0 284
58.0 283
43.0 277
57.0 274
54.0 273
51.0 270
65.0 265
60.0 265
41.0 261
2.0 258
48.0 255
55.0 254
49.0 245
46.0 241
62.0 237
1.0 236
63.0 234
Menor de un a√±o 231
61.0 211
59.0 207
64.0 207
67.0 195
66.0 177
68.0 170
70.0 169
72.0 167
69.0 139
73.0 138
71.0 128
75.0 108
74.0 105
76.0 101
77.0 96
79.0 81
78.0 78
82.0 72
80.0 72
81.0 65
83.0 53
84.0 52
85.0 38
87.0 38
89.0 35
88.0 31
86.0 30
90.0 29
93.0 18
91.0 13
97 a√±os y m√°s 12
92.0 10
94.0 10
96.0 8
95.0 6
Mayor de 15 a√±os con edad ignorada 6


In [25]:
vars(df['Edad'].value_counts())

{'_is_copy': None,
 '_mgr': SingleBlockManager
 Items: CategoricalIndex([14.0, 12.0, 30.0, 10.0, 16.0, 18.0, 11.0, 6.0, 36.0, 13.0,
                   15.0, 23.0, 8.0, 9.0, 28.0, 21.0, 22.0, 35.0, 40.0, 32.0,
                   42.0, 17.0, 20.0, 4.0, 50.0, 19.0, 25.0, 38.0, 5.0, 33.0,
                   37.0, 31.0, 26.0, 3.0, 52.0, 7.0, 27.0, 34.0, 29.0, 24.0,
                   44.0, 39.0, 47.0, 53.0, 56.0, 45.0, 58.0, 43.0, 57.0, 54.0,
                   51.0, 65.0, 60.0, 41.0, 2.0, 48.0, 55.0, 49.0, 46.0, 62.0,
                   1.0, 63.0, 'Menor de un a√±o', 61.0, 59.0, 64.0, 67.0, 66.0,
                   68.0, 70.0, 72.0, 69.0, 73.0, 71.0, 75.0, 74.0, 76.0, 77.0,
                   79.0, 78.0, 82.0, 80.0, 81.0, 83.0, 84.0, 85.0, 87.0, 89.0,
                   88.0, 86.0, 90.0, 93.0, 91.0, '97 a√±os y m√°s', 92.0, 94.0,
                   96.0, 95.0, 'Mayor de 15 a√±os con edad ignorada'],
                  categories=[1.0, 2.0, 3.0, 4.0, ..., 96.0, '97 a√±os y m√°s', 'Mayor de 1

In [31]:
df['Edad'].value_counts().items()

<zip at 0x7f96d6133d40>