# Módulo 2

### Contenidos
- [Introducción a Pandas](#Introducción-a-Pandas)
- [Creando DFs](#Creando-DFs)
- [Filtrando y Seleccionando](#Filtrando-y-Seleccionando-campos)
- [Contando y Agrupando](#Contando-y-Agrupando)
- [Joineando](#Merge---Concat)

# Introducción a Pandas 
------------------------

## ¿Qué es Pandas?

[Pandas](https://pandas.pydata.org/) es una de las bibliotecas de Python más populares y utilizadas en la ciencia de los datos y la programación en Python. Su principal desarrollador es Wes McKinney y sus siglas significan "**Python Data Analysis Library**" y ha supuesto un gran cambio en la manipulación y el análisis de datos.

Está construida sobre el paquete Numpy, que permite a Python leer conjuntos de datos desde varios formatos, como un archivo CSV, un archivo TSV o una base de datos SQL. 

Ofrece estructuras de datos en **DataFrame** que permiten leer, almacenar, seleccionar y manipular datos tabulares en filas de observaciones y columnas de variables.  También le permite obtener rápidamente estadísticas como el valor medio de una columna.
 

***

Para empezar a utilizar la librería, primero debemos importarla

In [1]:
import pandas as pd
import numpy as np

# Creando DFs

Algunos ejemplos de creación de DataFrames

Se puede crear a partir de dos listas como por ejemplo:

In [2]:
Lista_1 = ["Victoria", "Camilo", "Juana"]
Lista_2 = ["Sanchez", "Martínez", "Pérez"]

df = pd.DataFrame()
df["Nombres"] = Lista_1
df["Apellidos"] = Lista_2

df

Unnamed: 0,Nombres,Apellidos
0,Victoria,Sanchez
1,Camilo,Martínez
2,Juana,Pérez


a partir de un diccionario

In [3]:
Lista_1 = ["Victoria", "Camilo", "Juana"]
Lista_2 = ["Sanchez", "Martínez", "Pérez"]

diccionario = {"Nombre": Lista_1,
     "Apellido": Lista_2}

df = pd.DataFrame(diccionario)
df

Unnamed: 0,Nombre,Apellido
0,Victoria,Sanchez
1,Camilo,Martínez
2,Juana,Pérez


In [4]:
pd.DataFrame.from_dict(diccionario)

Unnamed: 0,Nombre,Apellido
0,Victoria,Sanchez
1,Camilo,Martínez
2,Juana,Pérez


Podemos crear un DF a partir de la lectura de un archivo **csv**

In [5]:
# levanta un csv
df = pd.read_csv('salaries.csv')
df

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27
3,Thomas,75000,28
4,Ana,150000,35
5,Emma,95000,24
6,Richard,200000,54
7,Natalie,150000,43
8,Juan,170000,35
9,Liam,245000,33


Para guardar un archivo **csv**

In [6]:
# guarda un csv 
df.to_csv('donde se quiere guardar y con que nombre.csv', index=False)

Para mostrar el número de filas y columnas:

In [7]:
df.shape

(29, 3)

Para mostrar la información de un DataFrame

In [8]:
# Mostramos la info del DF
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    29 non-null     object
 1   Salary  29 non-null     int64 
 2   Age     29 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 824.0+ bytes


Para calcular los estadísticos descriptivos de un DataFrame

In [9]:
# Reportamos las estadísticas del DF
df.describe()

Unnamed: 0,Salary,Age
count,29.0,29.0
mean,168931.034483,35.172414
std,101329.353748,8.920558
min,50000.0,20.0
25%,95000.0,28.0
50%,124000.0,33.0
75%,200000.0,43.0
max,400000.0,54.0


Para ver las primeras 5 filas:

In [10]:
df.head()

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27
3,Thomas,75000,28
4,Ana,150000,35


Para ver las primeras 2:

In [11]:
df.head(2)

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45


Para ver las últimas filas:

In [12]:
df.tail()

Unnamed: 0,Name,Salary,Age
24,Amelia,124000,28
25,Isabella,400000,49
26,Mia,124000,28
27,Evelyn,400000,49
28,Harper,75000,28


Para obtener una muestra aleatoria de tamaño 5 del DataFrame

In [14]:
f = df.sample(5)
f

Unnamed: 0,Name,Salary,Age
18,Alexander,197000,36
27,Evelyn,400000,49
13,William,90000,26
21,Ava,400000,49
10,Noah,75000,28


Podemos visualizarlo todo al mismo tiempo!

In [15]:
print(df.head())
print("---")
print(df.tail())
print("---")
print(df.sample(5))

     Name  Salary  Age
0    John   50000   34
1   Sally  120000   45
2  Alyssa   80000   27
3  Thomas   75000   28
4     Ana  150000   35
---
        Name  Salary  Age
24    Amelia  124000   28
25  Isabella  400000   49
26       Mia  124000   28
27    Evelyn  400000   49
28    Harper   75000   28
---
       Name  Salary  Age
13  William   90000   26
21      Ava  400000   49
16    Lucas  150000   31
10     Noah   75000   28
26      Mia  124000   28


Para obtener las columnas del DataFrame

In [16]:
df.columns

Index(['Name', 'Salary', 'Age'], dtype='object')

Guardamos los campos en la variable **a**

In [17]:
# Guardamos todas las columnas del DF
columnas = df.columns
columnas

Index(['Name', 'Salary', 'Age'], dtype='object')

In [18]:
# seleccionar una columna
salarios = df["Salary"]
salarios

0      50000
1     120000
2      80000
3      75000
4     150000
5      95000
6     200000
7     150000
8     170000
9     245000
10     75000
11    124000
12    115000
13     90000
14    300000
15    240000
16    150000
17     75000
18    197000
19    175000
20    270000
21    400000
22    115000
23    115000
24    124000
25    400000
26    124000
27    400000
28     75000
Name: Salary, dtype: int64

# Filtrando y Seleccionando campos

Para poder seleccionar múltiples columnas, colocamos los nombres dentro de una lista:

In [63]:
# Seleccionar multiples columnas
Nombre_Salario = df[['Name','Salary']]
Nombre_Salario

Unnamed: 0,Name,Salary
0,John,50000
1,Sally,120000
2,Alyssa,80000
3,Thomas,75000
4,Ana,150000
5,Emma,95000
6,Richard,200000
7,Natalie,150000
8,Juan,170000
9,Liam,245000


Con la función **unique()** obtenemos los valores únicos de una columna o campo

In [64]:
# Guardamos los valores unicos
a = df["Age"].unique()
# Guardamos el numero de valores unicos
b = df["Name"].nunique()

Edades únicas

In [65]:
a

array([34, 45, 27, 28, 35, 24, 54, 43, 33, 30, 26, 41, 31, 20, 36, 39, 49],
      dtype=int64)

Cantidad de valores únicos en la columna **name**

In [66]:
b

28

In [32]:
df.head()

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27
3,Thomas,75000,28
4,Ana,150000,35


Podemos filtrar el DataFrame:

Las personas por encima de 40

In [67]:
df[df["Age"]>40]

Unnamed: 0,Name,Salary,Age
1,Sally,120000,45
6,Richard,200000,54
7,Natalie,150000,43
14,James,300000,45
15,Benjamin,240000,41
20,Emma,270000,45
21,Ava,400000,49
25,Isabella,400000,49
27,Evelyn,400000,49


Empleados llamados "Oliver"

In [68]:
df[df["Name"] == "Oliver"]

Unnamed: 0,Name,Salary,Age
11,Oliver,124000,28


Calculamos la media de los salarios

In [69]:
df["Salary"].mean()

168931.0344827586

Filtramos por los que están por encima de la media

In [70]:
df[df["Salary"] >= df["Salary"].mean()]

Unnamed: 0,Name,Salary,Age
6,Richard,200000,54
8,Juan,170000,35
9,Liam,245000,33
14,James,300000,45
15,Benjamin,240000,41
18,Alexander,197000,36
19,Olivia,175000,39
20,Emma,270000,45
21,Ava,400000,49
25,Isabella,400000,49


Otra forma de plantearlo:

In [71]:
media = df["Salary"].mean()
df[df["Salary"] >= media]

Unnamed: 0,Name,Salary,Age
6,Richard,200000,54
8,Juan,170000,35
9,Liam,245000,33
14,James,300000,45
15,Benjamin,240000,41
18,Alexander,197000,36
19,Olivia,175000,39
20,Emma,270000,45
21,Ava,400000,49
25,Isabella,400000,49


Otra forma de filtrar:

In [72]:
a = df["Age"] > 30 #Creamos un boolean index
a

0      True
1      True
2     False
3     False
4      True
5     False
6      True
7      True
8      True
9      True
10    False
11    False
12    False
13    False
14     True
15     True
16     True
17    False
18     True
19     True
20     True
21     True
22     True
23     True
24    False
25     True
26    False
27     True
28    False
Name: Age, dtype: bool

In [73]:
df[a]

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
4,Ana,150000,35
6,Richard,200000,54
7,Natalie,150000,43
8,Juan,170000,35
9,Liam,245000,33
14,James,300000,45
15,Benjamin,240000,41
16,Lucas,150000,31


Filtrando varias condiciones al vez: **&** seria "Y" y **|** seria "O"

In [74]:
df[(df["Age"] > 30) & (df["Salary"] == 50000)]

Unnamed: 0,Name,Salary,Age
0,John,50000,34


In [75]:
df[(df.Age > 30) & (df.Salary == 50000)]

Unnamed: 0,Name,Salary,Age
0,John,50000,34


In [76]:
df[(df.Age > 30) | (df.Salary == 50000)]

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
4,Ana,150000,35
6,Richard,200000,54
7,Natalie,150000,43
8,Juan,170000,35
9,Liam,245000,33
14,James,300000,45
15,Benjamin,240000,41
16,Lucas,150000,31


Con **~** se refiere a lo que **no** cumpla las condiciones dadas

In [77]:
df[~(df.Age > 30) & (df.Salary == 50000)]

Unnamed: 0,Name,Salary,Age


Otra manera de seleccionar datos:

Primera fila de la tabla

In [78]:
df.iloc[0]

Name       John
Salary    50000
Age          34
Name: 0, dtype: object

Segunda fila de la tabla:

In [79]:
df.iloc[1]

Name       Sally
Salary    120000
Age           45
Name: 1, dtype: object

Última fila de la tabla:

In [80]:
df.iloc[-1]

Name      Harper
Salary     75000
Age           28
Name: 28, dtype: object

Para seleccionar columnas:

Primera columna

In [81]:
df.iloc[:,0].head()

0      John
1     Sally
2    Alyssa
3    Thomas
4       Ana
Name: Name, dtype: object

Segunda columna

In [82]:
df.iloc[:,1].tail()

24    124000
25    400000
26    124000
27    400000
28     75000
Name: Salary, dtype: int64

Última columna o campo:

In [83]:
df.iloc[:,-1].head()

0    34
1    45
2    27
3    28
4    35
Name: Age, dtype: int64

Combinamos ambas:

In [84]:
df.iloc[0:5,0:2]

Unnamed: 0,Name,Salary
0,John,50000
1,Sally,120000
2,Alyssa,80000
3,Thomas,75000
4,Ana,150000


In [85]:
df.iloc[0:8,0:3]

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27
3,Thomas,75000,28
4,Ana,150000,35
5,Emma,95000,24
6,Richard,200000,54
7,Natalie,150000,43


Para calcular el salario mínimo:

In [86]:
df["Salary"].min()

50000

Para calcular el salario máximo:

In [87]:
df["Salary"].max()

400000

Para calcular el salario promedio

In [88]:
df["Salary"].mean()

168931.0344827586

Para calcular la mediana del salario:

In [89]:
df["Salary"].median()

124000.0

Todo junto:

In [90]:
# Se pueden realizar operaciones para las variables
# Calcular minimo, maximo y media
a= df["Salary"].min()
print("Salario Mínimo: ",a)
b= df["Salary"].max()
print("Salario Máximo: ", b)
c= df["Salary"].mean()
print("Salario Promedio: ",c)

Salario Mínimo:  50000
Salario Máximo:  400000
Salario Promedio:  168931.0344827586


Queremos agregar una columna más, para eso definimos una lista donde tenemos la información de los cargos:

In [91]:
Cargos = ["Analyst", "Analyst", "Analyst", "Analyst", 
          "Analyst", "Data Scientist", "Data Scientist",
          "Data Scientist", "Data Engineer", "Data Engineer", "Data Engineer",
          "Data Engineer", "HR", "HR", "HR", "HR","Director",
          "Director", "Director", "Intern", "Intern", "Intern", "Intern",
          "Growth", "Growth","Growth", "Marketing", "Marketing", "Marketing"]

In [92]:
df["Cargo"] = Cargos
df.sample(5)

Unnamed: 0,Name,Salary,Age,Cargo
26,Mia,124000,28,Marketing
12,Elijah,115000,30,HR
16,Lucas,150000,31,Director
20,Emma,270000,45,Intern
8,Juan,170000,35,Data Engineer


# Contando y Agrupando

In [93]:
df["Cargo"].value_counts()


Analyst           5
Intern            4
HR                4
Data Engineer     4
Marketing         3
Growth            3
Data Scientist    3
Director          3
Name: Cargo, dtype: int64

In [94]:
df.groupby('Cargo')["Name"].count()

Cargo
Analyst           5
Data Engineer     4
Data Scientist    3
Director          3
Growth            3
HR                4
Intern            4
Marketing         3
Name: Name, dtype: int64

In [95]:
pd.DataFrame(df.groupby('Cargo')["Name"].count())

Unnamed: 0_level_0,Name
Cargo,Unnamed: 1_level_1
Analyst,5
Data Engineer,4
Data Scientist,3
Director,3
Growth,3
HR,4
Intern,4
Marketing,3


Agrupando la tabla y generando estadísticos:

In [99]:
df.groupby('Cargo')['Salary'].agg(
    Salary_Promedio='mean',
    Salary_SD='std')

Unnamed: 0_level_0,Salary_Promedio,Salary_SD
Cargo,Unnamed: 1_level_1,Unnamed: 2_level_1
Analyst,95000.0,39686.269666
Data Engineer,153500.0,72288.772757
Data Scientist,148333.333333,52519.837522
Director,140666.666667,61533.188877
Growth,213000.0,162009.258995
HR,186250.0,100280.855601
Intern,240000.0,124298.028947
Marketing,199666.666667,175215.105894


***

Supongamos que queremos realizar distintas operaciones a las variables

- dataframe.agg(): only do aggregate operations
- dataframe.apply() The object is a dataframe
- dataframe.transform() performs a transform operation on each series of dataframe


In [100]:
df2 = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                columns=['A', 'B', 'C'])
df2

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


In [101]:
df2.agg({'A' : ['sum', 'min'], 'B' : ['min', 'max']})

Unnamed: 0,A,B
sum,12.0,
min,1.0,2.0
max,,8.0


Podemos aplicar una función a todo el DF

In [109]:
df4 = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
df4

Unnamed: 0,A,B
0,0,1
1,1,2
2,2,3


En este caso definimos una función anónima o lambda que ejecuta una suma a todos los valores de la tabla

In [110]:
df4.transform(lambda x: x + 1) ## a todos los valores sumo 1

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


Podemos ejecutar múltiples funciones así:

In [111]:
df4 = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
df4

Unnamed: 0,A,B
0,0,1
1,1,2
2,2,3


In [114]:
trans = df4.transform([np.sqrt, np.square])
trans

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,sqrt,square,sqrt,square
0,0.0,0,1.0,1
1,1.0,1,1.414214,4
2,1.414214,4,1.732051,9


# Merge - Concat

**merge()** para combinar datos en columnas o índices comunes, similar al buscarv de Excel.

**concat()** para combinar DataFrames en filas o columnas


### Merge

Sintaxis: **df_merged = pd.merge(df1,df2,how='inner/left/right',on=[columna/s])**

Las principales formas de merge son:

- inner

- left

- right

<img src="https://i.stack.imgur.com/iJUMl.png" width="350"/>

In [115]:
Lista_1 = ["Victoria", "Camilo", "Juana"]
Lista_2 = ["Sanchez", "Martínez", "Pérez"]
Lista_3 = [2,5,6]
Lista_4 = [1,2,3]

d = {"Nombre": Lista_1,
     "Apellido": Lista_2,
     "Sesiones": Lista_3,
      "ID": Lista_4}

df_1 = pd.DataFrame(d)
df_1

Unnamed: 0,Nombre,Apellido,Sesiones,ID
0,Victoria,Sanchez,2,1
1,Camilo,Martínez,5,2
2,Juana,Pérez,6,3


In [116]:
Lista_5 = [1,2,3]
Lista_6 = ["Heavy User", "Heavy User", "Low User"]

e = {"ID": Lista_5,
     "Perfil": Lista_6}

df_2 = pd.DataFrame(e)
df_2

Unnamed: 0,ID,Perfil
0,1,Heavy User
1,2,Heavy User
2,3,Low User


In [117]:
pd.merge(df_1, df_2, how = "inner", left_on = "ID", right_on = "ID")

Unnamed: 0,Nombre,Apellido,Sesiones,ID,Perfil
0,Victoria,Sanchez,2,1,Heavy User
1,Camilo,Martínez,5,2,Heavy User
2,Juana,Pérez,6,3,Low User


In [118]:
Lista_1 = ["Victoria", "Camilo", "Juana", "Celeste", "Raul"]
Lista_2 = ["Sanchez", "Martínez", "Pérez", "Sanchez", "Benitez"]
Lista_3 = [2,5,6,7,6]
Lista_4 = [1,2,3,4,5]

d = {"Nombre": Lista_1,
     "Apellido": Lista_2,
     "Sesiones": Lista_3,
      "ID": Lista_4}

df_1 = pd.DataFrame(d)

pd.merge(df_1, df_2, how = "left", left_on = "ID", right_on = "ID")

Unnamed: 0,Nombre,Apellido,Sesiones,ID,Perfil
0,Victoria,Sanchez,2,1,Heavy User
1,Camilo,Martínez,5,2,Heavy User
2,Juana,Pérez,6,3,Low User
3,Celeste,Sanchez,7,4,
4,Raul,Benitez,6,5,


### Concat

**pd.concat(df1,df2,axis=0)**

<img src="https://files.realpython.com/media/concat_axis0.2ec65b5f72bc.png" width="450"/>

In [119]:
df_1

Unnamed: 0,Nombre,Apellido,Sesiones,ID
0,Victoria,Sanchez,2,1
1,Camilo,Martínez,5,2
2,Juana,Pérez,6,3
3,Celeste,Sanchez,7,4
4,Raul,Benitez,6,5


In [120]:
Lista_1 = ["Belen", "Daniel", "Ruben", "Pilar"]
Lista_2 = ["Reyes", "Delgado", "Gomez", "Rodriguez"]
Lista_3 = [6,9,12,3]
Lista_4 = [6,7,8,9]

f = {"Nombre": Lista_1,
     "Apellido": Lista_2,
     "Sesiones": Lista_3,
      "ID": Lista_4}
df_2 = pd.DataFrame(f)
df_2

Unnamed: 0,Nombre,Apellido,Sesiones,ID
0,Belen,Reyes,6,6
1,Daniel,Delgado,9,7
2,Ruben,Gomez,12,8
3,Pilar,Rodriguez,3,9


In [121]:
pd.concat([df_1, df_2])

Unnamed: 0,Nombre,Apellido,Sesiones,ID
0,Victoria,Sanchez,2,1
1,Camilo,Martínez,5,2
2,Juana,Pérez,6,3
3,Celeste,Sanchez,7,4
4,Raul,Benitez,6,5
0,Belen,Reyes,6,6
1,Daniel,Delgado,9,7
2,Ruben,Gomez,12,8
3,Pilar,Rodriguez,3,9


**pd.concat(df1,df2,axis=1)**

<img src="https://files.realpython.com/media/concat_col.a8eec2b4e84f.png" width="500">

In [122]:
Lista_1 = ["Belen", "Daniel", "Ruben", "Pilar"]


h = {"Nombre": Lista_1}
df_3 = pd.DataFrame(h)
df_3

Unnamed: 0,Nombre
0,Belen
1,Daniel
2,Ruben
3,Pilar


In [123]:
Lista_2 = ["Reyes", "Delgado", "Gomez", "Rodriguez"]


j = {"Apellido": Lista_2}
df_4 = pd.DataFrame(j)
df_4

Unnamed: 0,Apellido
0,Reyes
1,Delgado
2,Gomez
3,Rodriguez


In [124]:
pd.concat([df_3, df_4], axis = 1)

Unnamed: 0,Nombre,Apellido
0,Belen,Reyes
1,Daniel,Delgado
2,Ruben,Gomez
3,Pilar,Rodriguez


In [20]:
tabla = pd.read_spss("Base Santander - Ola 11 - Parte A.sav")
tabla.head(2)

Unnamed: 0,respondent_id,q01,q02,q03_01,q03_02,q03_03,q03_04,q03_05,q03_06,q03_07,...,q13_02,q13_03,q13_04,q13_05,q14,q15,genero,edad,zona,nse
0,12118360000.0,Cuotas sin interés,"Si, ambas",,,,,Banco HSBC,,,...,Poco de acuerdo,Nada de acuerdo,Nada de acuerdo,Muy de acuerdo,Descuento en Indumentaria,Descuentos en Hogar / Decoración,Mujer,47.0,AMBA,Alto
1,12120960000.0,Descuentos en comercios,"Si, sólo de débito",,,,Banco ICBC,,Banco Macro,,...,Algo de acuerdo,Muy de acuerdo,Algo de acuerdo,Poco de acuerdo,Descuentos en YPF Combustibles,Descuentos en Pinturerías,Hombre,28.0,Interior,Alto


In [21]:
tabla.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Columns: 113 entries, respondent_id to nse
dtypes: category(111), float64(2)
memory usage: 44.8 KB


In [24]:
tabla["edad"].mean()

42.156

In [28]:
tabla["q03_01"].unique()

[NaN, 'Santander']
Categories (1, object): ['Santander']

In [27]:
tabla.sample(3)

Unnamed: 0,respondent_id,q01,q02,q03_01,q03_02,q03_03,q03_04,q03_05,q03_06,q03_07,...,q13_02,q13_03,q13_04,q13_05,q14,q15,genero,edad,zona,nse
140,12141530000.0,Cuotas sin interés,"Si, ambas",,,BBVA,,,,,...,Poco de acuerdo,Algo de acuerdo,Poco de acuerdo,Nada de acuerdo,Descuentos en YPF Combustibles,Descuentos en Electrónica / Informática,Mujer,30.0,AMBA,Medio
203,12173470000.0,Descuentos en comercios,"Si, ambas",,,BBVA,,,,,...,Poco de acuerdo,Algo de acuerdo,Poco de acuerdo,Poco de acuerdo,Descuento en Carrefour,Descuentos en Electrónica / Informática,Hombre,40.0,AMBA,Medio
110,12123630000.0,Cuotas sin interés,"Si, ambas",,,,,,,,...,Nada de acuerdo,Algo de acuerdo,Nada de acuerdo,Nada de acuerdo,Descuentos en YPF Combustibles,Descuentos en Librerías / Jugueterías,Mujer,32.0,AMBA,Medio


In [30]:
tabla.shape

(250, 113)

In [33]:
columnas = tabla.columns

for i in columnas:
    print(i)

respondent_id
q01
q02
q03_01
q03_02
q03_03
q03_04
q03_05
q03_06
q03_07
q03_08
q03_09
q03_10
q03_11
q03_12
q03_13
q03_14
q03_15
q03_16
q03_17
q04
q05_01
q05_02
q05_03
q05_04
q05_05
q05_06
q05_07
q05_08
q05_09
q05_10
q05_11
q05_12
q05_13
q05_14
q05_15
q05_16
q05_17
q06
q07_01
q07_02
q07_03
q07_04
q07_05
q07_06
q08
q09
q10_01
q10_02
q10_03
q10_04
q11
q12_a_01
q12_a_02
q12_a_03
q12_a_04
q12_a_05
q12_a_06
q12_a_07
q12_a_08
q12_a_09
q12_a_10
q12_b_01
q12_b_02
q12_b_03
q12_b_04
q12_b_05
q12_b_06
q12_b_07
q12_b_08
q12_b_09
q12_b_10
q12_c_01
q12_c_02
q12_c_03
q12_c_04
q12_c_05
q12_c_06
q12_c_07
q12_c_08
q12_c_09
q12_c_10
q12_d_01
q12_d_02
q12_d_03
q12_d_04
q12_d_05
q12_d_06
q12_d_07
q12_d_08
q12_d_09
q12_d_10
q12_e_01
q12_e_02
q12_e_03
q12_e_04
q12_e_05
q12_e_06
q12_e_07
q12_e_08
q12_e_09
q12_e_10
q13_01
q13_02
q13_03
q13_04
q13_05
q14
q15
genero
edad
zona
nse


In [34]:
tabla.groupby("genero").count()

Unnamed: 0_level_0,respondent_id,q01,q02,q03_01,q03_02,q03_03,q03_04,q03_05,q03_06,q03_07,...,q13_01,q13_02,q13_03,q13_04,q13_05,q14,q15,edad,zona,nse
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Hombre,169,169,169,43,45,52,35,10,31,15,...,169,169,169,169,169,169,169,169,169,169
Mujer,81,81,81,34,21,26,5,21,5,6,...,81,81,81,81,81,80,81,81,81,81


In [36]:
tabla["q15"]

0             Descuentos en Hogar / Decoración
1                    Descuentos en Pinturerías
2                    Descuentos en Pinturerías
3             Descuentos en Hogar / Decoración
4      Descuentos en Electrónica / Informática
                        ...                   
245      Descuentos en Librerías / Jugueterías
246                      Descuentos en Bodegas
247             Descuentos en apps de Delivery
248      Descuentos en Librerías / Jugueterías
249    Descuentos en Electrónica / Informática
Name: q15, Length: 250, dtype: category
Categories (8, object): ['Descuentos en Bodegas', 'Descuentos en Electrónica / Informática', 'Descuentos en Eventos por Streaming (Musicale..., 'Descuentos en Hogar / Decoración', 'Descuentos en Librerías / Jugueterías', 'Descuentos en Pinturerías', 'Descuentos en accesorios para el auto / servi..., 'Descuentos en apps de Delivery']

In [41]:
f = pd.DataFrame(tabla.groupby(["genero", "q15"])["respondent_id"].count())
f.to_excel("procesado.xlsx")