# TUTORIAL: PANDAS DESDE CERO

En este tutorial veremos una introducción a la librería Pandas y a las herramientas que más comúnmente usaremos al momento de procesar y analizar datos tabulares en Python.

Contenido:

1. Lectura de datos tabulares desde archivos CSV o Excel
2. DataFrames y Series
3. Métodos y atributos de uso más común en un DataFrame o Serie
4. Indexación
5. Manipulando el contenido de un DataFrame
6. Agrupaciones
7. Exportando un DataFrame

In [23]:
pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Using cached et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Using cached et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl

   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   ---------------------------------------- 2/2 [openpyxl]

Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5
Note: you may need to restart the kernel to use updated

In [17]:

!pip install --upgrade pip

Collecting pip
  Using cached pip-25.2-py3-none-any.whl.metadata (4.7 kB)
Using cached pip-25.2-py3-none-any.whl (1.8 MB)



[notice] A new release of pip is available: 25.0.1 -> 25.2
[notice] To update, run: C:\Users\Supernova dev 2\AppData\Local\Programs\Python\Python313\python.exe -m pip install --upgrade pip
ERROR: To modify pip, please run the following command:
C:\Users\Supernova dev 2\AppData\Local\Programs\Python\Python313\python.exe -m pip install --upgrade pip


## 1. Lectura de datos tabulares desde archivos CSV o Excel

Podemos usar las funciones "read_csv" y "read_excel" de Pandas para leer estos tipos de archivo:

In [11]:
import pandas as pd

# Leer todas las columnas
df_csv = pd.read_csv("dataset_pandas.csv")
df_csv

Unnamed: 0,id,edad,email,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,salsobrook0@amazon.co.uk,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,haddenbrooke1@parallels.com,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,ikynge2@cnbc.com,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,jsnoad3@globo.com,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,kstringer4@sakura.ne.jp,Femenino,Utah,27.5
...,...,...,...,...,...,...
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,tmoorhousero@live.com,Masculino,Louisiana,25.4
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,sarstingallrp@ibm.com,Masculino,District of Columbia,26.4
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,mmcgroartyrq@fastcompany.com,Femenino,Florida,18.3
1003,bacda779-4383-435c-a9d9-c8c8c5b28bd7,57.0,sbussrr@fastcompany.com,Masculino,New York,24.5


In [12]:
# Leer sólo ciertas columnas
df_csv = pd.read_csv("dataset_pandas.csv",
                    usecols=['edad','email','estado'])
df_csv

Unnamed: 0,edad,email,estado
0,75.0,salsobrook0@amazon.co.uk,Florida
1,84.0,haddenbrooke1@parallels.com,Illinois
2,,ikynge2@cnbc.com,Hawaii
3,57.0,jsnoad3@globo.com,California
4,59.0,kstringer4@sakura.ne.jp,Utah
...,...,...,...
1000,34.0,tmoorhousero@live.com,Louisiana
1001,47.0,sarstingallrp@ibm.com,District of Columbia
1002,76.0,mmcgroartyrq@fastcompany.com,Florida
1003,57.0,sbussrr@fastcompany.com,New York


In [None]:
# Leer todas las columnas pero NO leer
# el footer
df_csv = pd.read_csv("dataset_pandas.csv",
                    skipfooter=1)
df_csv

  df_csv = pd.read_csv("dataset_pandas.csv",


Unnamed: 0,id,edad,email,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,salsobrook0@amazon.co.uk,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,haddenbrooke1@parallels.com,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,ikynge2@cnbc.com,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,jsnoad3@globo.com,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,kstringer4@sakura.ne.jp,Femenino,Utah,27.5
...,...,...,...,...,...,...
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,ldelavaletteparisotrn@booking.com,Femenino,California,25.7
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,tmoorhousero@live.com,Masculino,Louisiana,25.4
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,sarstingallrp@ibm.com,Masculino,District of Columbia,26.4
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,mmcgroartyrq@fastcompany.com,Femenino,Florida,18.3


In [24]:
# Leer excel (por defecto se lee la primera hoja)
df_xls = pd.read_excel('dataset_pandas.xlsx', engine='openpyxl')
df_xls

Unnamed: 0,id,edad,email,genero,estado,IMC
0,6dbfd2dd-f136-4fb4-855e-44756fc08298,39.0,ahaygreen0@shinystat.com,Femenino,Hawaii,22.1
1,b60c7351-f1ec-43a8-a29a-cb8d0ca48d16,45.0,apeskett1@hud.gov,Masculino,Kansas,25.2
2,6523676e-4416-4d5a-9c99-e9ca5dcbb3fa,77.0,edrohan2@dell.com,Masculino,District of Columbia,18.7
3,d36674c5-37bc-4210-a0b6-943d286e0090,43.0,gdoyley3@mit.edu,Femenino,Michigan,29.0
4,67d2e157-332f-42df-8058-5bfa021a1cfc,41.0,mscullard4@ft.com,Femenino,,24.7
...,...,...,...,...,...,...
1001,2e2f5a19-076a-4cf5-b733-6831aee8d352,22.0,foutridgerq@discovery.com,Femenino,Idaho,21.8
1002,567cf0fb-5ab6-4ff1-9259-dcb336a47bf2,42.0,igingellrr@edublogs.org,Masculino,Michigan,29.6
1003,,,,,,
1004,,,,,,


In [29]:
# Leer excel (por defecto se lee la primera hoja)
df_xls = pd.read_excel('dataset_pandas.xlsx',
                    sheet_name='mini_tabla')
df_xls

Unnamed: 0,id,edad,email,genero
0,6dbfd2dd-f136-4fb4-855e-44756fc08298,39,ahaygreen0@shinystat.com,Femenino
1,b60c7351-f1ec-43a8-a29a-cb8d0ca48d16,45,apeskett1@hud.gov,Masculino
2,6523676e-4416-4d5a-9c99-e9ca5dcbb3fa,77,edrohan2@dell.com,Masculino
3,d36674c5-37bc-4210-a0b6-943d286e0090,43,gdoyley3@mit.edu,Femenino
4,67d2e157-332f-42df-8058-5bfa021a1cfc,41,mscullard4@ft.com,Femenino
5,73f80288-6320-4e09-8011-834edc593223,54,gduncombe5@com.com,Femenino
6,f085c700-3b4c-48f9-9331-2f8595c45952,58,lcromett6@economist.com,Masculino
7,6f2a9306-2f29-492f-b5a1-6a05fe5b000a,83,gmcorkil7@shareasale.com,Masculino
8,6973c416-b77f-4e8e-ab8a-f9bfdd64e8a5,78,ealeshkov8@craigslist.org,Masculino
9,d3d25b91-7bcb-4f7b-9c6a-ed6e2154ec97,78,asorro9@smugmug.com,Femenino


In [30]:
# Leer sólo ciertas columnas de la primera hoja
df_xls = pd.read_excel('dataset_pandas.xlsx',
                       usecols=['id','edad','IMC'])
df_xls

Unnamed: 0,id,edad,IMC
0,6dbfd2dd-f136-4fb4-855e-44756fc08298,39.0,22.1
1,b60c7351-f1ec-43a8-a29a-cb8d0ca48d16,45.0,25.2
2,6523676e-4416-4d5a-9c99-e9ca5dcbb3fa,77.0,18.7
3,d36674c5-37bc-4210-a0b6-943d286e0090,43.0,29.0
4,67d2e157-332f-42df-8058-5bfa021a1cfc,41.0,24.7
...,...,...,...
1001,2e2f5a19-076a-4cf5-b733-6831aee8d352,22.0,21.8
1002,567cf0fb-5ab6-4ff1-9259-dcb336a47bf2,42.0,29.6
1003,,,
1004,,,


In [None]:
# Leer todas las columnas y todas las filas
# exceptuando las tres últimas
df_xls = pd.read_excel('dataset_pandas.xlsx',
                skipfooter=3)
df_xls

Unnamed: 0,id,edad,email,genero,estado,IMC
0,6dbfd2dd-f136-4fb4-855e-44756fc08298,39.0,ahaygreen0@shinystat.com,Femenino,Hawaii,22.1
1,b60c7351-f1ec-43a8-a29a-cb8d0ca48d16,45.0,apeskett1@hud.gov,Masculino,Kansas,25.2
2,6523676e-4416-4d5a-9c99-e9ca5dcbb3fa,77.0,edrohan2@dell.com,Masculino,District of Columbia,18.7
3,d36674c5-37bc-4210-a0b6-943d286e0090,43.0,gdoyley3@mit.edu,Femenino,Michigan,29.0
4,67d2e157-332f-42df-8058-5bfa021a1cfc,41.0,mscullard4@ft.com,Femenino,,24.7
...,...,...,...,...,...,...
998,be107c02-7e02-45e7-b0e6-8a27e5fe701c,65.0,ahuskern@discovery.com,Masculino,Indiana,24.5
999,809915b9-d6d3-4e9d-87cf-27fa8feab31c,50.0,emeehanro@goo.gl,Femenino,California,18.7
1000,32381972-b052-48dc-bf53-29e527cb0eec,27.0,jmahareyrp@free.fr,Femenino,,28.0
1001,2e2f5a19-076a-4cf5-b733-6831aee8d352,22.0,foutridgerq@discovery.com,Femenino,Idaho,21.8


## 2. DataFrames y Series

Los DataFrames y las Series son los dos principales tipos de datos en Pandas.

En esencia:

- Un DataFrame es un arreglo 2D (tabla)
- Una Serie es un arreglo 1D (columna)

In [8]:
type(df_csv)

In [9]:
columna = df_csv['edad']
columna

Unnamed: 0,edad
0,75.0
1,84.0
2,
3,57.0
4,59.0
...,...
999,49.0
1000,34.0
1001,47.0
1002,76.0


In [10]:
type(columna)

Todo DataFrame y Serie tiene una serie de **métodos** y **atributos** a los cuales podemos acceder usando esta sintaxis:

## 3. Métodos y atributos de uso más común en un DataFrame o Serie

Los DataFrames y las Series son tipos de objetos y por tanto, en el lenguaje de la programación orientada a objetos, tienen asociados unos métodos y unos atributos.

Veamos los métodos y atributos de uso más común:

- "info()": nos permite ver un resumen de las principales características del arreglo (número de registros, nombres de las columnas, tipos de dato de cada columna, entre otras):

In [11]:
df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1004 entries, 0 to 1003
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      968 non-null    object 
 1   edad    931 non-null    float64
 2   email   1004 non-null   object 
 3   genero  1004 non-null   object 
 4   estado  919 non-null    object 
 5   IMC     988 non-null    float64
dtypes: float64(2), object(4)
memory usage: 47.2+ KB


- "shape": nos permite ver el tamaño del arreglo (número de filas x número de columnas):

In [12]:
df_csv.shape

(1004, 6)

- "columns" e "index" nos permite acceder a los nombres de cada columna (en el caso de los DataFrames) y al índice del arreglo:

In [13]:
df_csv.columns

Index(['id', 'edad', 'email', 'genero', 'estado', 'IMC'], dtype='object')

In [14]:
df_csv.index

RangeIndex(start=0, stop=1004, step=1)

- "to_numpy()": nos permite extraer el contenido del arreglo en formato NumPy (eliminando el índice y los nombres de las columnas - en el caso de los DataFrames -):

In [15]:
df_csv.to_numpy()

array([['6c7984c9-270d-4dee-b21e-8460ba65a683', 75.0,
        'salsobrook0@amazon.co.uk', 'Masculino', 'Florida', 26.7],
       ['45b54530-317e-4c64-b718-597990ff6fd9', 84.0,
        'haddenbrooke1@parallels.com', 'Masculino', 'Illinois', 30.6],
       ['87ef46d9-e9c8-4ba3-8965-5553b48ad2d9', nan, 'ikynge2@cnbc.com',
        'Femenino', 'Hawaii', 26.7],
       ...,
       ['7ddaf233-2a46-429a-b4be-f8ff5917d299', 47.0,
        'sarstingallrp@ibm.com', 'Masculino', 'District of Columbia',
        26.4],
       ['889d5238-aa0c-4717-b841-962d09eeca9c', 76.0,
        'mmcgroartyrq@fastcompany.com', 'Femenino', 'Florida', 18.3],
       ['bacda779-4383-435c-a9d9-c8c8c5b28bd7', 57.0,
        'sbussrr@fastcompany.com', 'Masculino', 'New York', 24.5]],
      dtype=object)

- "head(N)" y "tail(N)": nos permite ver los primeros/últimos "N" registros de la tabla. Si no agregamos argumento al método nos retorna por defecto las primeras/últimas 5 filas:

In [19]:
df_csv.head(10)

Unnamed: 0,id,edad,email,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,salsobrook0@amazon.co.uk,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,haddenbrooke1@parallels.com,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,ikynge2@cnbc.com,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,jsnoad3@globo.com,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,kstringer4@sakura.ne.jp,Femenino,Utah,27.5
5,08f55fb0-85d1-416c-adc8-70a452e1a415,39.0,ahagger5@icq.com,Femenino,Texas,29.7
6,4fbe704c-e876-4236-b42a-24b551a56af6,80.0,tleversuch6@mozilla.com,Femenino,,22.3
7,8fec9c7d-4207-4a5f-925e-746231185924,44.0,shablot7@reference.com,Femenino,Texas,21.3
8,a48b463e-675d-421c-b0b1-e21505232f10,64.0,dwiddall8@list-manage.com,Masculino,Virginia,20.3
9,6bb1103b-fbfc-474c-b2aa-19bbad448f98,50.0,kbattie9@symantec.com,Masculino,Illinois,23.2


- "describe()": un método muy utilizado al hacer análisis exploratorio de datos. Permite generar un resumen de las principales características de las variables tanto numéricas como categóricas:

In [20]:
# "describe" sin argumentos: por defecto genera un resumen
# únicamente de las variables numéricas
df_csv.describe()

Unnamed: 0,edad,IMC
count,931.0,988.0
mean,52.053706,24.9417
std,19.991378,3.997781
min,18.0,18.0
25%,35.5,21.4
50%,53.0,24.75
75%,69.0,28.4
max,87.0,32.0


In [21]:
# "describe" con argumento "include=[object]" para generar
# resumen únicamente de las variables categóricas
df_csv.describe(include=[object])

Unnamed: 0,id,email,genero,estado
count,968,1004,1004,919
unique,964,1000,2,47
top,e3289ac1-9930-487e-b735-8037f91b207e,ecleator1s@nps.gov,Femenino,Texas
freq,2,2,521,103


- "drop_duplicates()": permite eliminar registros (filas) duplicadas preservando únicamente la primera aparición. Muy útil en la limpieza de datos

In [22]:
df_sin_dup = df_csv.drop_duplicates()
print('DataFrame con duplicados: ', df_csv.shape)
print('DataFrame sin duplicados: ', df_sin_dup.shape)

DataFrame con duplicados:  (1004, 6)
DataFrame sin duplicados:  (1000, 6)


- "dropna()": permite buscar las filas que contengan celdas vacías (tipo "NaN" o *not a number*) y eliminarlas. Muy útil en la limpieza de datos:

In [23]:
df_sin_na = df_sin_dup.dropna()
print('DataFrame con duplicados: ', df_csv.shape)
print('DataFrame sin duplicados: ', df_sin_dup.shape)
print('DataFrame sin duplicados y sin NaN: ', df_sin_na.shape)

DataFrame con duplicados:  (1004, 6)
DataFrame sin duplicados:  (1000, 6)
DataFrame sin duplicados y sin NaN:  (800, 6)


- "isna()": permite detectar en qué ubicaciones se encuentran las celdas vacías (tipo "NaN"):

In [24]:
df_csv.isna()

Unnamed: 0,id,edad,email,genero,estado,IMC
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,True,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
999,False,False,False,False,False,False
1000,False,False,False,False,False,False
1001,False,False,False,False,False,False
1002,False,False,False,False,False,False


Y podemos combinar lo anterior con el método "sum()" para determinar la cantidad de datos faltantes en cada columna:

In [25]:
df_csv.isna().sum()

Unnamed: 0,0
id,36
edad,73
email,0
genero,0
estado,85
IMC,16


## 4. Indexación

La indexación nos permite acceder o extraer porciones de un *DataFrame* o de una Serie y es una operación muy pero muy común al momento de procesar y analizar datos tabulares.

Veamos las principales formas de realizar esta indexación.

### 4.1. Extracción de una o múltiples columnas

En este caso usamos la sintaxis `df['nombre_columna']` o `df[[listado_de_columnas]]`.

Por ejemplo, extraigamos únicamente la columna género:

In [26]:
df_csv['genero']

Unnamed: 0,genero
0,Masculino
1,Masculino
2,Femenino
3,Masculino
4,Femenino
...,...
999,Femenino
1000,Masculino
1001,Masculino
1002,Femenino


O extraigamos las columnas "genero" e "email":

In [27]:
df_csv[['genero', 'email']]

Unnamed: 0,genero,email
0,Masculino,salsobrook0@amazon.co.uk
1,Masculino,haddenbrooke1@parallels.com
2,Femenino,ikynge2@cnbc.com
3,Masculino,jsnoad3@globo.com
4,Femenino,kstringer4@sakura.ne.jp
...,...,...
999,Femenino,ldelavaletteparisotrn@booking.com
1000,Masculino,tmoorhousero@live.com
1001,Masculino,sarstingallrp@ibm.com
1002,Femenino,mmcgroartyrq@fastcompany.com


### 4.2. Extraer un rango de filas

El método "iloc()": nos permite extraer parte de las filas del *DataFrame* o Serie.

Por ejemplo, para extraer las primeras 10 filas escribimos:

In [28]:
df_csv.iloc[0:10,:] # También podemos escribir [:10]

Unnamed: 0,id,edad,email,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,salsobrook0@amazon.co.uk,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,haddenbrooke1@parallels.com,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,ikynge2@cnbc.com,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,jsnoad3@globo.com,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,kstringer4@sakura.ne.jp,Femenino,Utah,27.5
5,08f55fb0-85d1-416c-adc8-70a452e1a415,39.0,ahagger5@icq.com,Femenino,Texas,29.7
6,4fbe704c-e876-4236-b42a-24b551a56af6,80.0,tleversuch6@mozilla.com,Femenino,,22.3
7,8fec9c7d-4207-4a5f-925e-746231185924,44.0,shablot7@reference.com,Femenino,Texas,21.3
8,a48b463e-675d-421c-b0b1-e21505232f10,64.0,dwiddall8@list-manage.com,Masculino,Virginia,20.3
9,6bb1103b-fbfc-474c-b2aa-19bbad448f98,50.0,kbattie9@symantec.com,Masculino,Illinois,23.2


El uso de ":" como segundo argumento indica que tomaremos todas las columnas.

Si queremos extraer las primeras 10 filas pero únicamente las columnas desde la "edad" (índice 1) a "género" (índice 3) escribimos:

In [29]:
df_csv.iloc[:10,1:4]

Unnamed: 0,edad,email,genero
0,75.0,salsobrook0@amazon.co.uk,Masculino
1,84.0,haddenbrooke1@parallels.com,Masculino
2,,ikynge2@cnbc.com,Femenino
3,57.0,jsnoad3@globo.com,Masculino
4,59.0,kstringer4@sakura.ne.jp,Femenino
5,39.0,ahagger5@icq.com,Femenino
6,80.0,tleversuch6@mozilla.com,Femenino
7,44.0,shablot7@reference.com,Femenino
8,64.0,dwiddall8@list-manage.com,Masculino
9,50.0,kbattie9@symantec.com,Masculino


### 4.3. Filtrando filas y columnas

Y podemos hacer uso de **condicionales** para extraer porciones de un *DataFrame*.

Por ejemplo, extraigamos únicamente las personas con edades mayores a 35 años. En este caso podemos usar el método "loc":

In [30]:
df_csv.loc[df_csv['edad']>35]

Unnamed: 0,id,edad,email,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,salsobrook0@amazon.co.uk,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,haddenbrooke1@parallels.com,Masculino,Illinois,30.6
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,jsnoad3@globo.com,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,kstringer4@sakura.ne.jp,Femenino,Utah,27.5
5,08f55fb0-85d1-416c-adc8-70a452e1a415,39.0,ahagger5@icq.com,Femenino,Texas,29.7
...,...,...,...,...,...,...
998,9f986af0-10de-4256-afd3-543ece7a8cd1,42.0,hmulgrewrm@mozilla.org,Masculino,Colorado,19.8
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,ldelavaletteparisotrn@booking.com,Femenino,California,25.7
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,sarstingallrp@ibm.com,Masculino,District of Columbia,26.4
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,mmcgroartyrq@fastcompany.com,Femenino,Florida,18.3


Y en el argumento de "loc" también podemos incluir las columnas a extraer. Por ejemplo, usemos el condicional anterior y extraigamos además las columnas "email" e "IMC":

In [31]:
df_csv.loc[df_csv['edad']>35, ['email', 'IMC']]

Unnamed: 0,email,IMC
0,salsobrook0@amazon.co.uk,26.7
1,haddenbrooke1@parallels.com,30.6
3,jsnoad3@globo.com,29.2
4,kstringer4@sakura.ne.jp,27.5
5,ahagger5@icq.com,29.7
...,...,...
998,hmulgrewrm@mozilla.org,19.8
999,ldelavaletteparisotrn@booking.com,25.7
1001,sarstingallrp@ibm.com,26.4
1002,mmcgroartyrq@fastcompany.com,18.3


## 5. Manipulando el contenido de un DataFrame

Y podemos usar varias herramientas que nos permiten generar nuevas tablas manipulando el contenido de la tabla (DataFrame) original.

### 5.1. Ordenamiento de DataFrames

Podemos **ordenar** las filas de una tabla con respecto a un cierto criterio.

Por ejemplo, ordenemos las filas usando como criterio la edad (de menor a mayor):

In [32]:
df_csv.sort_values(by='edad')

Unnamed: 0,id,edad,email,genero,estado,IMC
834,,18.0,csybryn2@com.com,Femenino,Ohio,21.3
710,840882a0-b681-4d1a-b65f-87319811d279,18.0,cmcnamarajm@google.cn,Masculino,Massachusetts,25.7
814,a7344bea-af3d-4bf5-91a6-0912beaf499d,18.0,kklimschakmi@opera.com,Masculino,,31.9
844,4294de71-bdf5-4ac7-9ec0-bf85c33e5069,18.0,plawrancenc@bandcamp.com,Femenino,Georgia,26.5
510,7711115b-8da5-4e0d-b57e-8a667f00b9d2,18.0,farnalde2@boston.com,Femenino,Texas,21.2
...,...,...,...,...,...,...
919,34cb101d-198f-4e65-a69b-647b677816f0,,manderbruggepf@thetimes.co.uk,Femenino,Pennsylvania,25.2
955,46d7f704-572f-4a01-9aec-636541986e14,,tshelbourneqf@indiegogo.com,Femenino,Ohio,22.2
969,6e8d2893-1d62-4769-becf-774f79c51669,,etroyesqt@i2i.jp,Femenino,Louisiana,29.0
975,8b9f8ede-7cbf-48e6-9959-ef200e9053df,,aandrezqz@godaddy.com,Femenino,Missouri,29.5


Y para ordenar de manera descendente lo podemos hacer usando el argumento "ascending = False":

In [33]:
df_csv.sort_values(by='edad', ascending=False)

Unnamed: 0,id,edad,email,genero,estado,IMC
479,273ff3a1-1822-42e1-82b8-005d7f55b789,87.0,lspellesyd7@aboutads.info,Femenino,Texas,24.3
911,81533bf9-26b1-4116-9cb5-36032ade0276,87.0,dhoweyp7@patch.com,Femenino,Texas,31.3
564,b49eddf1-83bf-49d6-91c7-bcaf95cd1fb0,87.0,elayingfk@nsw.gov.au,Femenino,Ohio,27.5
726,db990f12-c1ab-40a6-a35b-e5d8d71624eb,87.0,mreinbeckk2@auda.org.au,Masculino,California,30.8
982,582efee3-d859-4b60-88f0-bdbfc5f50594,87.0,svanwaadenburgr6@discuz.net,Masculino,,30.4
...,...,...,...,...,...,...
919,34cb101d-198f-4e65-a69b-647b677816f0,,manderbruggepf@thetimes.co.uk,Femenino,Pennsylvania,25.2
955,46d7f704-572f-4a01-9aec-636541986e14,,tshelbourneqf@indiegogo.com,Femenino,Ohio,22.2
969,6e8d2893-1d62-4769-becf-774f79c51669,,etroyesqt@i2i.jp,Femenino,Louisiana,29.0
975,8b9f8ede-7cbf-48e6-9959-ef200e9053df,,aandrezqz@godaddy.com,Femenino,Missouri,29.5


Y podemos usar múltiples criterios de ordenamiento. Por ejemplo ordenemos de manera ascendente por edad y por IMC:

In [34]:
df_csv.sort_values(by=['edad', 'IMC'])

Unnamed: 0,id,edad,email,genero,estado,IMC
327,5656e1ad-1cdd-4639-ac74-3ac91beb9a3c,18.0,bdonaher8z@census.gov,Femenino,Texas,18.8
510,7711115b-8da5-4e0d-b57e-8a667f00b9d2,18.0,farnalde2@boston.com,Femenino,Texas,21.2
834,,18.0,csybryn2@com.com,Femenino,Ohio,21.3
963,8b859f97-821e-4632-a120-f589fff82264,18.0,stimlettqn@zdnet.com,Femenino,Colorado,22.7
13,,18.0,jodcroftd@friendfeed.com,Masculino,California,23.0
...,...,...,...,...,...,...
195,4c82ec76-bbe5-4d16-82eb-99bed20fb778,,mruoff5c@liveinternet.ru,Masculino,District of Columbia,31.4
358,c9ec5bf5-a967-4b7a-8aad-84a8e533e923,,gbennellick9u@geocities.jp,Masculino,Georgia,31.7
185,0440e937-7913-4410-a3c6-69457b807857,,pfranssen53@sciencedirect.com,Masculino,Kansas,31.8
722,1b2caa83-db28-45d9-a5cf-b9932bbbf2a8,,lmcallisterjy@loc.gov,Femenino,Virginia,31.8


Y esta lógica también se puede aplicar para ordenar alfabéticamente usando como criterio variables categóricas.

Por ejemplo, ordenemos el DataFrame por estados alfabéticamente de la A a la Z:

In [36]:
df_csv.sort_values(by=['estado'], ascending=False)

Unnamed: 0,id,edad,email,genero,estado,IMC
766,83a99c98-3a77-4a9f-b310-594543d1b595,,ddochartyl6@sourceforge.net,Masculino,Wisconsin,24.5
813,20ffad82-47d4-4110-8165-fd5801d9217a,43.0,dwhittockmh@networksolutions.com,Masculino,Wisconsin,22.5
174,5ac34cf5-62d6-4c0f-a97f-ece875cd3fa6,62.0,ljasiak4s@fda.gov,Femenino,Wisconsin,26.6
771,20bf01bd-841e-4fd7-a743-828ec2123d0f,,mkenwortheylb@ft.com,Femenino,Wisconsin,19.1
98,e29df9ff-6fd2-41eb-b45a-a743371a2e34,26.0,azavittieri2o@reuters.com,Femenino,Wisconsin,
...,...,...,...,...,...,...
959,a7bba9de-37df-43b4-a977-6573a3272ce6,46.0,sfennyqj@examiner.com,Femenino,,28.7
966,a572af69-150f-4f4e-b8a5-ae838e6b8159,62.0,rboulderqq@fda.gov,Femenino,,31.2
976,3067eb55-af3c-4bb1-adc0-6d113ce5993a,22.0,lminchintonr0@about.me,Masculino,,25.4
982,582efee3-d859-4b60-88f0-bdbfc5f50594,87.0,svanwaadenburgr6@discuz.net,Masculino,,30.4


### 5.2. Renombrar columnas

Podemos cambiar el nombre de una o varias columnas usando el método "rename".

Como argumento de este método usamos un diccionario que contendrá el nombre original y el nuevo nombre para cada columna que queramos renombrar:

In [37]:
df_csv.rename(columns={'edad':'Edad', 'genero':'género'})

Unnamed: 0,id,Edad,email,género,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,salsobrook0@amazon.co.uk,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,haddenbrooke1@parallels.com,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,ikynge2@cnbc.com,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,jsnoad3@globo.com,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,kstringer4@sakura.ne.jp,Femenino,Utah,27.5
...,...,...,...,...,...,...
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,ldelavaletteparisotrn@booking.com,Femenino,California,25.7
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,tmoorhousero@live.com,Masculino,Louisiana,25.4
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,sarstingallrp@ibm.com,Masculino,District of Columbia,26.4
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,mmcgroartyrq@fastcompany.com,Femenino,Florida,18.3


In [39]:
df_csv

Unnamed: 0,id,edad,email,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,salsobrook0@amazon.co.uk,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,haddenbrooke1@parallels.com,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,ikynge2@cnbc.com,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,jsnoad3@globo.com,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,kstringer4@sakura.ne.jp,Femenino,Utah,27.5
...,...,...,...,...,...,...
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,ldelavaletteparisotrn@booking.com,Femenino,California,25.7
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,tmoorhousero@live.com,Masculino,Louisiana,25.4
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,sarstingallrp@ibm.com,Masculino,District of Columbia,26.4
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,mmcgroartyrq@fastcompany.com,Femenino,Florida,18.3


### 5.3. Eliminar columnas

En este caso podemos usar "drop" en donde especificaremos la(s) columna(s) a eliminar:

In [40]:
# Eliminar la columna e-mail
df_csv.drop(columns=['email'])

Unnamed: 0,id,edad,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,Femenino,Utah,27.5
...,...,...,...,...,...
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,Femenino,California,25.7
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,Masculino,Louisiana,25.4
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,Masculino,District of Columbia,26.4
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,Femenino,Florida,18.3


A pesar de que la tabla impresa en pantalla no contiene la columna "email", realmente **este cambio no persiste**.

Esto quiere decir que si imprimimos nuevamente "df_csv" veremos la tabla original:

In [41]:
df_csv

Unnamed: 0,id,edad,email,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,salsobrook0@amazon.co.uk,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,haddenbrooke1@parallels.com,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,ikynge2@cnbc.com,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,jsnoad3@globo.com,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,kstringer4@sakura.ne.jp,Femenino,Utah,27.5
...,...,...,...,...,...,...
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,ldelavaletteparisotrn@booking.com,Femenino,California,25.7
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,tmoorhousero@live.com,Masculino,Louisiana,25.4
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,sarstingallrp@ibm.com,Masculino,District of Columbia,26.4
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,mmcgroartyrq@fastcompany.com,Femenino,Florida,18.3


Siempre que apliquemos cualquier operación a un DataFrame y queramos preservar los cambios en el mismo DataFrame debemos usar "inplace=True":

In [42]:
# Eliminar la columna "email" y sobre-escribir los cambios
df_csv.drop(columns=['email'], inplace=True)

Y si ahora imprimimos "df_csv" veremos que se preservan los cambios:

In [43]:
df_csv

Unnamed: 0,id,edad,genero,estado,IMC
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,Masculino,Florida,26.7
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,Masculino,Illinois,30.6
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,Femenino,Hawaii,26.7
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,Masculino,California,29.2
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,Femenino,Utah,27.5
...,...,...,...,...,...
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,Femenino,California,25.7
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,Masculino,Louisiana,25.4
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,Masculino,District of Columbia,26.4
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,Femenino,Florida,18.3


### 5.4. Agregar columnas

Y también podemos agregar columnas a un DataFrame. Por ejemplo agreguemos una columna para indicar si la persona tiene o no sobrepeso:

In [44]:
df_csv['soprepeso'] = 'No'
df_csv

Unnamed: 0,id,edad,genero,estado,IMC,soprepeso
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,Masculino,Florida,26.7,No
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,Masculino,Illinois,30.6,No
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,Femenino,Hawaii,26.7,No
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,Masculino,California,29.2,No
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,Femenino,Utah,27.5,No
...,...,...,...,...,...,...
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,Femenino,California,25.7,No
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,Masculino,Louisiana,25.4,No
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,Masculino,District of Columbia,26.4,No
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,Femenino,Florida,18.3,No


Y ahora usemos condicionales para rellenar esta columna indicando "Sí" si la persona tiene un IMC>25:

In [45]:
df_csv.loc[df_csv['IMC']>25, 'sobrepeso'] = 'Sí'
df_csv

Unnamed: 0,id,edad,genero,estado,IMC,soprepeso,sobrepeso
0,6c7984c9-270d-4dee-b21e-8460ba65a683,75.0,Masculino,Florida,26.7,No,Sí
1,45b54530-317e-4c64-b718-597990ff6fd9,84.0,Masculino,Illinois,30.6,No,Sí
2,87ef46d9-e9c8-4ba3-8965-5553b48ad2d9,,Femenino,Hawaii,26.7,No,Sí
3,33267565-7115-4bec-9dc1-3e5057412d10,57.0,Masculino,California,29.2,No,Sí
4,3cddc250-e992-4a30-8097-f1422761b7be,59.0,Femenino,Utah,27.5,No,Sí
...,...,...,...,...,...,...,...
999,2c54f71c-23f8-46e6-abdf-05fc78e717a3,49.0,Femenino,California,25.7,No,Sí
1000,02568917-9a13-4f6b-ba09-5d664e8069f6,34.0,Masculino,Louisiana,25.4,No,Sí
1001,7ddaf233-2a46-429a-b4be-f8ff5917d299,47.0,Masculino,District of Columbia,26.4,No,Sí
1002,889d5238-aa0c-4717-b841-962d09eeca9c,76.0,Femenino,Florida,18.3,No,


## 6. Agrupaciones

El método "Groupby" resulta muy útil cuando queremos usar una variable categórica para generar agrupaciones.

La sintaxis básica es:

**DataFrame -> groupby -> función de agregación**

Donde la *función de agregación* permite, como su nombre lo indica, agregar los valores de cada agrupación generada (por ejemplo sumándolos, promediándolos, etc.).

Por ejemplo, generemos agrupaciones usando como criterio el estado y por cada estado calculemos el IMC promedio:

In [46]:
df_csv.groupby(['estado'])['IMC'].mean()

Unnamed: 0_level_0,IMC
estado,Unnamed: 1_level_1
Alabama,23.84
Alaska,26.566667
Arizona,25.415789
Arkansas,25.55
California,25.680412
Colorado,23.592
Connecticut,24.942105
Delaware,23.675
District of Columbia,24.7
Florida,25.804286


Y podemos organizar lo anterior por ejemplo de manera descendente por los valores promedios de IMC:

In [48]:
df_imc = df_csv.groupby(['estado'])['IMC'].mean().sort_values(ascending=False)
df_imc

Unnamed: 0_level_0,IMC
estado,Unnamed: 1_level_1
Montana,28.65
New Hampshire,27.75
Oklahoma,26.88
Alaska,26.566667
Idaho,26.175
Maryland,26.127778
Michigan,26.1
Hawaii,25.966667
Louisiana,25.945455
North Carolina,25.828571


## 7. Almacenamiento de un DataFrame

Y por último, podemos almacenar el DataFrame anterior por ejemplo como un archivo CSV:

In [49]:
df_imc.to_csv('/content/datos_IMC.csv')