<a href="https://colab.research.google.com/github/jvg0109/ProgPhyton2025/blob/main/Introduccion_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Introducción a Pandas

## ¿Qué es pandas?
Es una librería de análisis de datos que se compone de una serie de estructuras de datos con funcionalidades para limpiar, analizar y preprocesar los datos para tareas siguientes al análisis.

![wget](https://drive.google.com/uc?export=view&id=1mbFgZLmt0qD80FleVEj4cpxh5oO3ocvQ)

## Importando pandas
Pandas se puede importar de la siguiente manera. Se utiliza el nombre pd por facilidad de manejo.

In [None]:
import pandas as pd
import numpy as np

In [None]:
pd.__version__

'2.1.4'

## Ejemplos de estructuras de datos

### Series
Una serie es un arreglo unidimensional con un índice correspondiente a cada posición del arreglo. Por ejemplo, el listado de jugadores de un equipo, donde el arreglo tiene los apellidos de los jugadores y el índice el número del jugador.

In [None]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'],
    index=[1, 2, 9, 11, 10])

Como se puede observar con los jugadores Cuadrado y Rodriguez, los índices no tienen que estar necesariamente ordenados. La serie se puede imprimir escribiendo su identificador.

In [None]:

seleccionColombia

Unnamed: 0,0
1,Ospina
2,Zapata
9,Falcao
11,Cuadrado
10,Rodriguez


Una serie se puede generar sin conocer los índices y Pandas los generará automáticamente con valores desde cero hasta el tamaño de la lista menos uno. En el caso de la misma serie:

In [None]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'])
seleccionColombia

Unnamed: 0,0
0,Ospina
1,Zapata
2,Falcao
3,Cuadrado
4,Rodriguez


### Series desde Diccionarios

Las series tambien pueden ser definidas desde diccionarios:

In [None]:
dict_selcol = {1:'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}
print(dict_selcol)

{1: 'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}


In [None]:
ser_selcol = pd.Series(dict_selcol)
ser_selcol
#ser_selcol.head(1)

Unnamed: 0,0
1,Ospina
2,Zapata
9,Falcao
11,Cuadrado
10,Rodriguez


In [None]:
ser_selcol.loc[11]

'Cuadrado'

### DataFrame
Un DataFrame es una estructura de datos que almacena la información como una tabla ordenada por filas y columnas. Cada fila representa un objeto y cada columna la información correspondiente a una característica de los objetos.

Un DataFrame también posee índices por cada fila, que pueden ser dados o generados automáticamente. Cada columna del DataFrame es una serie, donde el valor del índice corresponde con los valores de índice que tiene el DataFrame.

Por medio de un diccionario vamos a crear un dataframe, donde las llaves son los nombres de las columnas y los valores son la lista de valores que tienen las características.

Por ejemplo, para hacer un DataFrame con el equipo de fútbol anterior, pero agregando estatura y peso, podemos hacerlo de la siguiente manera:

In [None]:
dict_caracteristicas = {'apellido':['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'],
                       'altura':[183.0,187.0,177.0,179.0,180.0],
                       'peso':[80.0,82.0,72.0,72.0,75.0]}

seleccionColombia = pd.DataFrame(dict_caracteristicas,index=[1, 2, 9, 11, 10])

Al imprimir el DataFrame, podemos observar que su estructura es similar a la de un documento en Excel, donde el índice (que no tiene nombre de columna) es el número del jugador.

In [None]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0


## Acceso a los registros del DataFrame por el índice

En pandas podemos acceder a la fila por el índice de ésta. En el ejemplo anterior éste índice era el número de la camiseta del jugador. Pero podría ser una fecha, una letra, etc.

Si conocemos el índice simplemente lo usamos para ir directamente a la fila deseada.

In [None]:
seleccionColombia.loc[1]

Unnamed: 0,1
apellido,Ospina
altura,183.0
peso,80.0


Para agregar un nuevo jugador, se puede utilizar el índice, que en este caso es el número en el equipo y un arreglo representando todas sus características (apellido, altura y peso).

NOTA: Las características tienen que estar en el mismo orden.

In [None]:
num_jugador = 30
caract_jugador = ['Messi',168,75.0]
seleccionColombia.loc[num_jugador] = caract_jugador

Imprimiendo el DataFrame podemos ver el nuevo jugador.

In [None]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
30,Messi,168.0,75.0


## Borrar Columna o Fila

In [None]:
seleccionColombia.keys()

Index(['apellido', 'altura', 'peso'], dtype='object')

In [None]:
seleccion_sin_peso = seleccionColombia.drop('peso', axis=1) # Para que sea permanente inplace=True

In [None]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
30,Messi,168.0,75.0


In [None]:
seleccion_sin_peso

Unnamed: 0,apellido,altura
1,Ospina,183.0
2,Zapata,187.0
9,Falcao,177.0
11,Cuadrado,179.0
10,Rodriguez,180.0
30,Messi,168.0


Si queremos eliminar una columna permanentemente también se puede usar:

In [None]:
#del seleccionColombia['peso']

In [None]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
30,Messi,168.0,75.0


Si queremos saber cuales son las columnas actuales del data frame, usamos la propiedad 'columns' del objeto.

In [None]:
seleccionColombia.columns

Index(['apellido', 'altura', 'peso'], dtype='object')

Si queremos conocer el indice del dataframe, con lo propiedad 'index' la conocemos.

In [None]:
seleccionColombia.index

Index([1, 2, 9, 11, 10, 30], dtype='int64')

Para ordenar el dataframe se usa la función sort.

In [None]:
seleccionColombia.sort_values?

In [None]:
seleccionColombia.sort_values(by=['peso'], ascending=True) #inplace=False por defecto

Unnamed: 0,apellido,altura,peso
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
30,Messi,168.0,75.0
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0


## Datos faltantes: rellenar valores NaN con algo más

En algunas ocaciones vamos a tener valores inválidos en nuestros dataframes. Estos valores son un problema al momento de hacer cálculos numéricos o tomar estadísticas.

Para esto es necesario dejar fuera del dataframe estos campos.

En las siguientes líneas usted verá cómo se eliminan estos valores.

In [None]:
import numpy as np

In [None]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df
#df.tail(3)

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [None]:
df_2 = df[['col3','col1']]
df_2

Unnamed: 0,col3,col1
0,abc,1.0
1,def,2.0
2,ghi,3.0
3,xyz,


In [None]:
df['col1'].mean()

2.0

**Hallar valores NULL o verificarlos**

In [None]:
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,True,False
1,False,False,False
2,False,False,False
3,True,False,False


In [None]:
np.sum(np.sum(df.isnull()))

  return reduction(axis=axis, out=out, **passkwargs)


2

In [None]:
np.sum(df.isna())

Unnamed: 0,0
col1,1
col2,1
col3,0


In [None]:
np.sum(np.sum(df.isnull()))

2

In [None]:
df.fillna(0, inplace=True) # inplace=False por defecto

In [None]:
df

Unnamed: 0,col1,col2,col3
0,1.0,0.0,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,0.0,444.0,xyz


In [None]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [None]:
# Eliminar filas con valores NaN
df.dropna()

Unnamed: 0,col1,col2,col3
1,2.0,555.0,def
2,3.0,666.0,ghi


## Quiz

Complete la  función `pair_odds` la cual  recibe un número entero `n` y debe retornar un dataframe  con las siguientes columnas  `['pares','impares']` con el contenido de los primeros `n` números pares -empezado en 2- y en la columna impares los primeros `n` impares -empezando en 1-.

Por ejemplo si `n` es igual a 3, pares=2,4,6, impares=1,3,5.

In [None]:
def pair_odds(n):
  """
  Parámetros:
     n: número de elementos para calcular los pares e impares

  Retorna:
     df_res: dataframe con las columnas 'pares','impares' para almacenar los valores calculados
  """
  df_nums = pd.DataFrame(columns = ['pares','impares'])
  #Ponga su código acá
  for x in range(n):
    df_nums.loc[(x+1)] = [2*(x+1), 2*(x+1)-1]

  return df_nums


def test_pair_odds(n):
  try:
    res = pair_odds(n)
  except:
    raise Exception("Error en la función")
  #Validar la respuesta
  _is_ok = np.sum((res['pares']-res['impares']))==n
  if not _is_ok:
    raise Exception("Error en el cálculo de los pares e impares")
  return True

In [None]:
# No correr esta línea, es solo para comparar su respuesta
pair_odds(15)


Unnamed: 0,pares,impares
1,2,1
2,4,3
3,6,5
4,8,7
5,10,9
6,12,11
7,14,13
8,16,15
9,18,17
10,20,19


In [None]:
df_nums = test_pair_odds(10)
df_nums

True

# 2. Acceso a datos

## Carga y Guardado de Datos

Pandas permite leer archivos en diferentes formatos, como txt, csv y excel. En este ejemplo se leerá un dataset correspondiente a la información nutricional de un listado de 80 cereales.

Como el formato es .csv, se lee usando la función de pandas read_csv usando como parámetro la dirección del archivo. Si el archivo está en la misma carpeta del notebook, se puede usar solo su nombre.

In [None]:
!ls -la

total 24
drwxr-xr-x 1 root root 4096 Sep  7 20:15 .
drwxr-xr-x 1 root root 4096 Sep  7 19:59 ..
-rw-r--r-- 1 root root 5063 Sep  7 20:15 cereal.csv
drwxr-xr-x 4 root root 4096 Sep  5 17:47 .config
drwxr-xr-x 1 root root 4096 Sep  5 17:47 sample_data


In [None]:
!head cereal.csv

name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
100% Bran,N,C,70,4,1,130,10,5,6,280,25,3,1,0.33,68.402973
100% Natural Bran,Q,C,120,3,5,15,2,8,8,135,0,3,1,1,33.983679
All-Bran,K,C,70,4,1,260,9,7,5,320,25,3,1,0.33,59.425505
All-Bran with Extra Fiber,K,C,50,4,0,140,14,8,0,330,25,3,1,0.5,93.704912
Almond Delight,R,C,110,2,2,200,1,14,8,-1,25,3,1,0.75,34.384843
Apple Cinnamon Cheerios,G,C,110,2,2,180,1.5,10.5,10,70,25,1,1,0.75,29.509541
Apple Jacks,K,C,110,2,0,125,1,11,14,30,25,2,1,1,33.174094
Basic 4,G,C,130,3,2,210,2,18,8,100,25,3,1.33,0.75,37.038562
Bran Chex,R,C,90,2,1,200,4,15,6,125,25,1,1,0.67,49.120253


In [None]:
import pandas as pd
import numpy as np

df_cereals = pd.read_csv("cereal.csv")
df_cereals

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
1,100% Natural Bran,Q,C,120,3,5,15,2.0,8.0,8,135,0,3,1.0,1.00,33.983679
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.50,93.704912
4,Almond Delight,R,C,110,2,2,200,1.0,14.0,8,-1,25,3,1.0,0.75,34.384843
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72,Triples,G,C,110,2,1,250,0.0,21.0,3,60,25,3,1.0,0.75,39.106174
73,Trix,G,C,110,1,1,140,0.0,13.0,12,25,25,2,1.0,1.00,27.753301
74,Wheat Chex,R,C,100,3,1,230,3.0,17.0,3,115,25,1,1.0,0.67,49.787445
75,Wheaties,G,C,100,3,1,200,3.0,17.0,3,110,25,1,1.0,1.00,51.592193


In [None]:
df_cereals = pd.read_csv('https://drive.google.com/uc?id=1XAa6iZyFSqxmWQjefET_bbrMdJp5KWPJ')
df_cereals

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
1,100% Natural Bran,Q,C,120,3,5,15,2.0,8.0,8,135,0,3,1.0,1.00,33.983679
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.50,93.704912
4,Almond Delight,R,C,110,2,2,200,1.0,14.0,8,-1,25,3,1.0,0.75,34.384843
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72,Triples,G,C,110,2,1,250,0.0,21.0,3,60,25,3,1.0,0.75,39.106174
73,Trix,G,C,110,1,1,140,0.0,13.0,12,25,25,2,1.0,1.00,27.753301
74,Wheat Chex,R,C,100,3,1,230,3.0,17.0,3,115,25,1,1.0,0.67,49.787445
75,Wheaties,G,C,100,3,1,200,3.0,17.0,3,110,25,1,1.0,1.00,51.592193


In [None]:
df_open_data = pd.read_csv("https://www.datos.gov.co/resource/34ik-vuxy.csv?$limit=18000")
df_open_data

Unnamed: 0,ticket,evento,fecha,municipio,vereda,total_arboles,total_hectareas,nombre_comun,nombre_cientifico,arboles
0,25,restauracion morro azul,2020-05-07T00:00:00.000,Yarumal,Mina Vieja,700,1.400,Espadero,Myrsine coriacea,60
1,25,restauracion morro azul,2020-05-07T00:00:00.000,Yarumal,Mina Vieja,700,1.400,Chagualo,Clusia multiflora,88
2,25,restauracion morro azul,2020-05-07T00:00:00.000,Yarumal,Mina Vieja,700,1.400,Drago,Croton magdalenensis,76
3,25,restauracion morro azul,2020-05-07T00:00:00.000,Yarumal,Mina Vieja,700,1.400,Quimulá,Citharexylum subflavescens,54
4,25,restauracion morro azul,2020-05-07T00:00:00.000,Yarumal,Mina Vieja,700,1.400,Arrayan Eugenio,Eugenia myrtiflora,82
...,...,...,...,...,...,...,...,...,...,...
17169,5056,Sembratón,2021-03-27T00:00:00.000,Jardín,La Herrera,3,0.006,Ceiba rosada,Ceiba speciosa,3
17170,860,Sembratón Compensación Convenios 040-COV2011-2...,2021-04-27T00:00:00.000,Ituango,Los Galgos,115,0.230,Totumo,Crescentia cujete,30
17171,3594,siembra relacionada al contrato 040-CNT2011-154,2021-11-30T00:00:00.000,Cáceres,Guarumo,29500,59.000,Almendro,Terminalia catapa,3688
17172,738,Jornada de Participación ciudadana en temas am...,2021-02-27T00:00:00.000,Campamento,Los Chorros,1650,3.300,Carbonero,Calliandra pytieri,180


#Ejercicio
Crear un dataframe a partir de un conjunto de datos que esté disponible en algún portal de Datos Abiertos de cualquier ciudad/pais del mundo

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
df_drive = pd.read_csv('/content/drive/MyDrive/Curso MEN/poemas.csv', sep="\t")
df_drive

Unnamed: 0,author,title,text,label
0,EfrainH,absoluto amor,como una limpia mañana de besos morenos cuando...,0
1,EfrainH,aleluya cocodrilos sexuales aleluya,para ella que me mira morir el gran río penetr...,0
2,EfrainH,ay poeta,primero que nada me complace enormísimamente s...,0
3,EfrainH,buenos días a diana cazadora,muy buenos días laurel muy buenos días metal b...,0
4,EfrainH,canción de la doncella del alba,para thelma se mete piel adentro como paloma c...,0
...,...,...,...,...
348,RubenB,tinta y papel estoy pidiendo,tinta y papel estoy pidiendo para escribir mi ...,4
349,RubenB,tú das la vista a mis pupilas ciegas,tú das la vista a mis pupilas ciegas y a mi vo...,4
350,RubenB,vencido el atrio desvestida,vencido el atrio desvestida te tocas inmersa e...,4
351,RubenB,y nuevamente abril a flor de cielo,y nuevamente abril a flor de cielo abre tus ma...,4


In [None]:
df_bogota = pd.read_csv("https://datosabiertos.bogota.gov.co/dataset/8c2a07f9-5948-41ca-8f7a-447753426ab9/resource/4911565b-4518-4931-93de-d117c10dbdce/download/osb_ocupacion_hosp_ucis_20230412.csv", sep=";", encoding = "ISO-8859-1")
df_bogota

Unnamed: 0,IPS,Servicio,Grupo,Camas Ocupadas,Camas Habilitadas,Camas Disponibles,Porcentaje ocupación,Fecha Actualización
0,Públicas,Hospitalización general,Neonatal,108,132,24,82%,13/03/2024
1,Públicas,Hospitalización general,Pediátrico,287,394,107,73%,13/03/2024
2,Públicas,Hospitalización general,Adulto,1046,1217,171,86%,13/03/2024
3,Públicas,Unidad de cuidado intermedio,Neonatal,54,106,52,51%,13/03/2024
4,Públicas,Unidad de cuidado intermedio,Pediátrico,10,16,6,63%,13/03/2024
5,Públicas,Unidad de cuidado intermedio,Adulto,69,72,3,96%,13/03/2024
6,Públicas,Unidad de cuidado intensivo,Neonatal,42,67,25,63%,13/03/2024
7,Públicas,Unidad de cuidado intensivo,Pediátrico,18,30,12,60%,13/03/2024
8,Públicas,Unidad de cuidado intensivo,Adulto,144,168,24,86%,13/03/2024
9,Privadas,Hospitalización general,Neonatal,143,168,25,85%,13/03/2024


In [None]:
url="https://www.data.gouv.fr/fr/datasets/r/32616122-6931-4875-8e26-a57832012419"
df_france = pd.read_csv(url)
df_france

Unnamed: 0,species_code,taxocode,scientific_name,english_name,french_name,spanish_name,arabic_name,chinese_name,russian_name,author,...,order,stats_data,isscaap_code,isscaap_group_en,isscaap_group_fr,isscaap_group_es,isscaap_division_code,isscaap_division_en,isscaap_division_fr,isscaap_division_es
0,YCL,1400100101,Cycleptus elongatus,Blue sucker,,,,,,(Lesueur 1817),...,Cypriniformes,No,11.0,"Carps, barbels and other cyprinids","Carpes, barbeaux et autres cyprinidés","Carpas, barbos y otros ciprínidos",1.0,Freshwater fishes,Poissons d'eau douce,Peces de agua dulce
1,DEU,1400100201,Deltistes luxatus,Lost River sucker,,,,,,(Cope 1879),...,Cypriniformes,No,11.0,"Carps, barbels and other cyprinids","Carpes, barbeaux et autres cyprinidés","Carpas, barbos y otros ciprínidos",1.0,Freshwater fishes,Poissons d'eau douce,Peces de agua dulce
2,ATC,1400100401,Catostomus catostomus,Longnose sucker,,,,,,(Forster 1773),...,Cypriniformes,No,11.0,"Carps, barbels and other cyprinids","Carpes, barbeaux et autres cyprinidés","Carpas, barbos y otros ciprínidos",1.0,Freshwater fishes,Poissons d'eau douce,Peces de agua dulce
3,ATO,1400100402,Catostomus commersoni,White sucker,,,,,,(Lacépède 1803),...,Cypriniformes,No,11.0,"Carps, barbels and other cyprinids","Carpes, barbeaux et autres cyprinidés","Carpas, barbos y otros ciprínidos",1.0,Freshwater fishes,Poissons d'eau douce,Peces de agua dulce
4,ATS,1400100403,Catostomus latipinnis,Flannelmouth sucker,,,,,,Baird & Girard 1853,...,Cypriniformes,No,11.0,"Carps, barbels and other cyprinids","Carpes, barbeaux et autres cyprinidés","Carpas, barbos y otros ciprínidos",1.0,Freshwater fishes,Poissons d'eau douce,Peces de agua dulce
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12869,BXU,56806002XX,Stercorarius spp,Jaegers nei,,,,,,,...,Charadriiformes,No,,,,,,,,
12870,SWS,5680700101,Chionis alba,Snowy sheathbill,,,,,,(Gmelin 1789),...,Charadriiformes,No,,,,,,,,
12871,BF1,,Thunnus thynnus,Atlantic bluefin tuna (Size 1),Thon rouge de l'Atlantique (Calibre 1),,,,,,...,Scombroidei,Yes,,"Tunas, bonitos, billfishes","Thons, pélamides, marlins","Atunes, bonitos, agujas",,Marine fishes,Poissons marins,Peces marinos
12872,BF2,,Thunnus thynnus,Atlantic bluefin tuna (Size 2),Thon rouge de l'Atlantique (Calibre 2),,,,,,...,Scombroidei,Yes,,"Tunas, bonitos, billfishes","Thons, pélamides, marlins","Atunes, bonitos, agujas",,Marine fishes,Poissons marins,Peces marinos


In [None]:
df_chicago = pd.read_csv("https://data.cityofchicago.org/api/views/eix4-gf83/rows.csv?accessType=DOWNLOAD")
df_chicago

Unnamed: 0,the_geom,OBJECTID_1,PARK,PARK_NO,FACILITY_N,FACILITY_T,X_COORD,Y_COORD,GISOBJID
0,POINT (-87.63769762610757 41.76299921150787),1,HAMILTON (ALEXANDER),9,CULTURAL CENTER,SPECIAL,-87.637698,41.762999,2494
1,POINT (-87.63792902986378 41.76281652413111),2,HAMILTON (ALEXANDER),9,GYMNASIUM,INDOOR,-87.637929,41.762817,2495
2,POINT (-87.63691359952075 41.76084939012162),3,HAMILTON (ALEXANDER),9,BASEBALL JR/SOFTBALL,OUTDOOR,-87.636914,41.760849,2496
3,POINT (-87.63832013450008 41.76200535623585),4,HAMILTON (ALEXANDER),9,BASEBALL JR/SOFTBALL,OUTDOOR,-87.638320,41.762005,2497
4,POINT (-87.63805916836576 41.76047384589964),5,HAMILTON (ALEXANDER),9,BASEBALL JR/SOFTBALL,OUTDOOR,-87.638059,41.760474,2498
...,...,...,...,...,...,...,...,...,...
4462,POINT (-87.73510131337964 41.80345358991431),4507,ARCHER (WILLIAM BEATTY),250,TEEN CENTER,INDOOR,-87.735101,41.803454,6794
4463,POINT (-87.63766614078884 41.762803879346286),4508,HAMILTON (ALEXANDER),9,TEEN CENTER,INDOOR,-87.637666,41.762804,6793
4464,POINT (-87.75071605094674 41.77673930365681),4509,LAWLER (MICHAEL),1011,ART TURF - REGULATION,OUTDOOR,-87.750716,41.776739,6806
4465,POINT (-87.5855355052113 41.78213362866772),4510,JACKSON (ANDREW),19,TRACK,OUTDOOR,-87.585536,41.782134,6810


In [None]:
df_chicago.to_csv("chicago_parks.csv")

Si quiere conocer más formatos de entrada/salida como json, excel, hdf5, SQL, etc. Puede ir a la siguiente URL:

https://pandas.pydata.org/pandas-docs/stable/io.html

In [None]:
df_chicago.to_csv("chicago_parks.csv")

### Funciones para revisión de los datos
Lo primero que haremos es revisar las propiedades que tienen las columnas del DataFrame. Como el nombre de las columnas y sus tipos:

In [None]:
print("Columnas: ", df_cereals.columns.tolist())

Columnas:  ['name', 'mfr', 'type', 'calories', 'protein', 'fat', 'sodium', 'fiber', 'carbo', 'sugars', 'potass', 'vitamins', 'shelf', 'weight', 'cups', 'rating']


La función Info nos da un resumen del DataFrame y sus datos.

In [None]:
df_cereals

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
1,100% Natural Bran,Q,C,120,3,5,15,2.0,8.0,8,135,0,3,1.0,1.00,33.983679
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.50,93.704912
4,Almond Delight,R,C,110,2,2,200,1.0,14.0,8,-1,25,3,1.0,0.75,34.384843
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72,Triples,G,C,110,2,1,250,0.0,21.0,3,60,25,3,1.0,0.75,39.106174
73,Trix,G,C,110,1,1,140,0.0,13.0,12,25,25,2,1.0,1.00,27.753301
74,Wheat Chex,R,C,100,3,1,230,3.0,17.0,3,115,25,1,1.0,0.67,49.787445
75,Wheaties,G,C,100,3,1,200,3.0,17.0,3,110,25,1,1.0,1.00,51.592193


La función dtypes sólo nos indica los tipo de datos de las columnas.

In [None]:
whos

Variable               Type         Data/Info
---------------------------------------------
caract_jugador         list         n=3
df                     DataFrame       col1   col2 col3\n0   <...> ghi\n3   NaN  444.0  xyz
df_2                   DataFrame      col3  col1\n0  abc   1.<...>  ghi   3.0\n3  xyz   NaN
df_bogota              DataFrame           IPS               <...>n17          13/09/2023  
df_cereal_drive        DataFrame                             <...>n\n[77 rows x 16 columns]
df_cereals             DataFrame                             <...>n\n[77 rows x 16 columns]
df_chicago             DataFrame                             <...>\n[4467 rows x 9 columns]
df_drive               DataFrame          author             <...>n\n[353 rows x 4 columns]
df_france              DataFrame          species_code    tax<...>[12871 rows x 21 columns]
df_open_data           DataFrame                        FEC_N<...>\n[110 rows x 12 columns]
dict_caracteristicas   dict         n=3


In [None]:
df_cereals.dtypes

Unnamed: 0,0
name,object
mfr,object
type,object
calories,int64
protein,int64
fat,int64
sodium,int64
fiber,float64
carbo,float64
sugars,int64


Se puede observar que Pandas es capaz de inferir el tipo de columna a partir de los datos.

Para darle un vistazo inicial al DataFrame se puede utilizar la función head del DataFrame, que tiene como parámetro el número de filas que queremos observar, comenzando en orden por la primera.

In [None]:
df_cereals.tail(4)

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
73,Trix,G,C,110,1,1,140,0.0,13.0,12,25,25,2,1.0,1.0,27.753301
74,Wheat Chex,R,C,100,3,1,230,3.0,17.0,3,115,25,1,1.0,0.67,49.787445
75,Wheaties,G,C,100,3,1,200,3.0,17.0,3,110,25,1,1.0,1.0,51.592193
76,Wheaties Honey Gold,G,C,110,2,1,200,1.0,16.0,8,60,25,1,1.0,0.75,36.187559


La función describe nos entrega las estadísticas descriptivas que nos permite conocer la tendencia de los datos, dispersión, distribución, valores nulos y otros más.

In [None]:
df_cereals.describe(include='all')

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
count,77,77,77,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0
unique,77,7,2,,,,,,,,,,,,,
top,100% Bran,K,C,,,,,,,,,,,,,
freq,1,23,74,,,,,,,,,,,,,
mean,,,,106.883117,2.545455,1.012987,159.675325,2.151948,14.597403,6.922078,96.077922,28.246753,2.207792,1.02961,0.821039,42.665705
std,,,,19.484119,1.09479,1.006473,83.832295,2.383364,4.278956,4.444885,71.286813,22.342523,0.832524,0.150477,0.232716,14.047289
min,,,,50.0,1.0,0.0,0.0,0.0,-1.0,-1.0,-1.0,0.0,1.0,0.5,0.25,18.042851
25%,,,,100.0,2.0,0.0,130.0,1.0,12.0,3.0,40.0,25.0,1.0,1.0,0.67,33.174094
50%,,,,110.0,3.0,1.0,180.0,2.0,14.0,7.0,90.0,25.0,2.0,1.0,0.75,40.400208
75%,,,,110.0,3.0,2.0,210.0,3.0,17.0,11.0,120.0,25.0,3.0,1.0,1.0,50.828392


Para una descripción rápida se puede utilizar la función describe.

## Indexación
En Pandas la indexación es similar a la que se tiene en Numpy. El resultado de obtener resultados por indexación es otro DataFrame correspondiente a ciertas filas del DataFrame original.

### Obtención de filas por índice
Un ejemplo es acceder a una fila por medio de la función iloc. En la siguiente celda se selecciona el cereal con índice 7.

In [None]:
info_cereal_7 = df_cereals.iloc[7]
print(info_cereal_7)

name          Basic 4
mfr                 G
type                C
calories          130
protein             3
fat                 2
sodium            210
fiber             2.0
carbo            18.0
sugars              8
potass            100
vitamins           25
shelf               3
weight           1.33
cups             0.75
rating      37.038562
Name: 7, dtype: object


### Obtención de valores por columna
Para obtener toda la información de una columna, se puede acceder al DataFrame como un diccionario, en donde la llave es la columna a la que queremos acceder.

In [None]:
info_calories = df_cereals['calories']

Veamos que si usamos el acceso con un corchete cuadrado, nos retorna un objeto tipo series.

In [None]:
type(info_calories)

En cambio si usamos doble corchete, nos retorna un dataframe con la columna.

In [None]:
type(df_cereals[['calories']])

In [None]:
df_cereals[['calories','mfr']]

Unnamed: 0,calories,mfr
0,70,N
1,120,Q
2,70,K
3,50,K
4,110,R
...,...,...
72,110,G
73,110,G
74,100,R
75,100,G


La información de columna se obtiene en el mismo orden que en el DataFrame original. Al imprimirlo, podemos ver en la primera columna el valor del índice y en la segunda el valor de la columna seleccionada.

In [None]:
print(df_cereals[10:30])

                                      name mfr type  calories  protein  fat  \
10                            Cap'n'Crunch   Q    C       120        1    2   
11                                Cheerios   G    C       110        6    2   
12                   Cinnamon Toast Crunch   G    C       120        1    3   
13                                Clusters   G    C       110        3    2   
14                             Cocoa Puffs   G    C       110        1    1   
15                               Corn Chex   R    C       110        2    0   
16                             Corn Flakes   K    C       100        2    0   
17                               Corn Pops   K    C       110        1    0   
18                           Count Chocula   G    C       110        1    1   
19                      Cracklin' Oat Bran   K    C       110        3    3   
20                  Cream of Wheat (Quick)   N    H       100        3    0   
21                                 Crispix   K    C 

Se pueden seleccionar más de una columna del DataFrame a la vez.

In [None]:
info_calories_sugar = df_cereals[['calories','sugars']]

In [None]:
info_calories_sugar

Unnamed: 0,calories,sugars
0,70,6
1,120,8
2,70,5
3,50,0
4,110,8
...,...,...
72,110,3
73,110,12
74,100,3
75,100,3


### Obtención de valores usando condiciones
Con Pandas, se pueden seleccionar columnas cuyas características cumplan ciertas condiciones. Por ejemplo, los cereales con menos de 100 calorias. Para ello se hace la selección de la columna, se evalua la condición con esta y luego se selecciona del DataFrame el segmento que cumple la condición de la siguiente manera:

In [None]:
df_cereals['calories'] < 100

Unnamed: 0,calories
0,True
1,False
2,True
3,True
4,False
...,...
72,False
73,False
74,False
75,False


In [None]:
#Seleccion de columna: df_cereals['calories']
#Condicion sobre esa columna: df_cereals['calories'] < 100
#Seleccion de fragmento de dataframe que cumple la condicion:
    #df_cereals[df_cereals['calories'] < 100]
less_100_cal = df_cereals[df_cereals['calories'] < 100]

In [None]:
less_100_cal

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.5,93.704912
8,Bran Chex,R,C,90,2,1,200,4.0,15.0,6,125,25,1,1.0,0.67,49.120253
9,Bran Flakes,P,C,90,3,0,210,5.0,13.0,5,190,25,3,1.0,0.67,53.313813
50,Nutri-grain Wheat,K,C,90,3,0,170,3.0,18.0,2,90,25,3,1.0,1.0,59.642837
54,Puffed Rice,Q,C,50,1,0,0,0.0,13.0,0,15,0,3,0.5,1.0,60.756112
55,Puffed Wheat,Q,C,50,2,0,0,1.0,10.0,0,50,0,3,0.5,1.0,63.005645
60,Raisin Squares,K,C,90,2,0,0,2.0,15.0,6,110,25,3,1.0,0.5,55.333142
63,Shredded Wheat,N,C,80,2,0,0,3.0,16.0,0,95,0,1,0.83,1.0,68.235885


Las condiciones se pueden mezclar usando operadores lógicos, por ejemplo cereales con menos de 100 calorias y sin grasa (valor 0 en fat).

In [None]:
#condition_calories = df_cereals['calories'] < 100
#condition_fat = df_cereals['fat'] == 0
#print(condition_calories)
#print(condition_fat)
less_100_cal_and_fat = df_cereals[(df_cereals['calories'] < 100) & (df_cereals['fat']==0)]
less_100_cal_and_fat

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.5,93.704912
9,Bran Flakes,P,C,90,3,0,210,5.0,13.0,5,190,25,3,1.0,0.67,53.313813
50,Nutri-grain Wheat,K,C,90,3,0,170,3.0,18.0,2,90,25,3,1.0,1.0,59.642837
54,Puffed Rice,Q,C,50,1,0,0,0.0,13.0,0,15,0,3,0.5,1.0,60.756112
55,Puffed Wheat,Q,C,50,2,0,0,1.0,10.0,0,50,0,3,0.5,1.0,63.005645
60,Raisin Squares,K,C,90,2,0,0,2.0,15.0,6,110,25,3,1.0,0.5,55.333142
63,Shredded Wheat,N,C,80,2,0,0,3.0,16.0,0,95,0,1,0.83,1.0,68.235885
64,Shredded Wheat 'n'Bran,N,C,90,3,0,0,4.0,19.0,0,140,0,1,1.0,0.67,74.472949
65,Shredded Wheat spoon size,N,C,90,3,0,0,3.0,20.0,0,120,0,1,1.0,0.67,72.801787
68,Strawberry Fruit Wheats,N,C,90,2,0,15,3.0,15.0,5,90,25,2,1.0,1.0,59.363993


In [None]:
less_100_cal_and_fat.describe()

Unnamed: 0,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
count,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0
mean,77.0,2.5,0.0,53.5,3.8,14.7,1.8,123.0,12.5,2.3,0.883,0.801,66.063108
std,18.885621,0.849837,0.0,84.460707,3.852849,3.831159,2.529822,86.76917,13.176157,0.948683,0.208702,0.218757,11.954602
min,50.0,1.0,0.0,0.0,0.0,8.0,0.0,15.0,0.0,1.0,0.5,0.5,53.313813
25%,57.5,2.0,0.0,0.0,2.25,13.0,0.0,90.0,0.0,1.25,0.8725,0.67,59.433704
50%,90.0,2.5,0.0,0.0,3.0,15.0,0.0,102.5,12.5,3.0,1.0,0.835,61.880879
75%,90.0,3.0,0.0,108.75,3.75,17.5,4.25,135.0,25.0,3.0,1.0,1.0,71.660312
max,90.0,4.0,0.0,210.0,14.0,20.0,6.0,330.0,25.0,3.0,1.0,1.0,93.704912


Teniendo en cuenta que el resultado de la indexación también es un DataFrame, se pueden hacer operaciones similares sobre el resultado, que en este caso tiene el identificador less_100_cal_and_fat.

In [None]:
less_100_cal_and_fat.head(5)

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.5,93.704912
9,Bran Flakes,P,C,90,3,0,210,5.0,13.0,5,190,25,3,1.0,0.67,53.313813
50,Nutri-grain Wheat,K,C,90,3,0,170,3.0,18.0,2,90,25,3,1.0,1.0,59.642837
54,Puffed Rice,Q,C,50,1,0,0,0.0,13.0,0,15,0,3,0.5,1.0,60.756112
55,Puffed Wheat,Q,C,50,2,0,0,1.0,10.0,0,50,0,3,0.5,1.0,63.005645


### Ejemplos de operaciones sobre DataFrames

Como se vio al usar la función describe, con el DataFrame se pueden hacer operaciones matemáticas, como hallar la media y desviación estándar. En este caso vamos a hallar la media de calificaciones de los cereales que tienen menos de 100 calorias y no tienen grasa. Al ser el rating una columna, la operación de media se calcula sobre esta columna.

In [None]:
less_100_cal_and_fat

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.5,93.704912
9,Bran Flakes,P,C,90,3,0,210,5.0,13.0,5,190,25,3,1.0,0.67,53.313813
50,Nutri-grain Wheat,K,C,90,3,0,170,3.0,18.0,2,90,25,3,1.0,1.0,59.642837
54,Puffed Rice,Q,C,50,1,0,0,0.0,13.0,0,15,0,3,0.5,1.0,60.756112
55,Puffed Wheat,Q,C,50,2,0,0,1.0,10.0,0,50,0,3,0.5,1.0,63.005645
60,Raisin Squares,K,C,90,2,0,0,2.0,15.0,6,110,25,3,1.0,0.5,55.333142
63,Shredded Wheat,N,C,80,2,0,0,3.0,16.0,0,95,0,1,0.83,1.0,68.235885
64,Shredded Wheat 'n'Bran,N,C,90,3,0,0,4.0,19.0,0,140,0,1,1.0,0.67,74.472949
65,Shredded Wheat spoon size,N,C,90,3,0,0,3.0,20.0,0,120,0,1,1.0,0.67,72.801787
68,Strawberry Fruit Wheats,N,C,90,2,0,15,3.0,15.0,5,90,25,2,1.0,1.0,59.363993


In [None]:
less_100_cal_and_fat['shelf'].mean()

2.3

La desviación estándar sobre el rating se puede calcular de la siguiente manera.

In [None]:
less_100_cal_and_fat['shelf'].std()

0.9486832980505138

El máximo rating también se puede calcular.

In [None]:
max_rate = less_100_cal_and_fat['shelf'].max()
max_rate

3

Usando el máximo podemos mirar cual es el nombre del cereal con menos de 100 calorias y sin grasa.

In [None]:
condition_max_rating = less_100_cal_and_fat['shelf'] == max_rate
best_cereal_less_100_no_fat = less_100_cal_and_fat[condition_max_rating]

In [None]:
best_cereal_less_100_no_fat

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.5,93.704912
9,Bran Flakes,P,C,90,3,0,210,5.0,13.0,5,190,25,3,1.0,0.67,53.313813
50,Nutri-grain Wheat,K,C,90,3,0,170,3.0,18.0,2,90,25,3,1.0,1.0,59.642837
54,Puffed Rice,Q,C,50,1,0,0,0.0,13.0,0,15,0,3,0.5,1.0,60.756112
55,Puffed Wheat,Q,C,50,2,0,0,1.0,10.0,0,50,0,3,0.5,1.0,63.005645
60,Raisin Squares,K,C,90,2,0,0,2.0,15.0,6,110,25,3,1.0,0.5,55.333142


In [None]:
best_cereal_less_100_no_fat[['name','calories']]

Unnamed: 0,name,calories
3,All-Bran with Extra Fiber,50
9,Bran Flakes,90
50,Nutri-grain Wheat,90
54,Puffed Rice,50
55,Puffed Wheat,50
60,Raisin Squares,90


#Ejercicio

Crear los siguientes filtros sobre el dataframe que contiene todos los cereales

* Crear 1 filtro que deveulva los cereales que tengan sodio entre 170 (inclusive) y 200 (inclusive)
* Crear un filtro sobre fibra y carbono que cumplan las siguientes dos condiciones (usar un AND):
  * Fibra entre 1 (inclusive) y 3 (inclusive) y Carbono igual a 3



# Tarea Pandas

Realizar el taller que se encuentra en el Aula Virtual llamado "Taller Pandas (Salarios)".

In [None]:
df_cereals = pd.read_csv("cereal.csv")
df_cereals

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
1,100% Natural Bran,Q,C,120,3,5,15,2.0,8.0,8,135,0,3,1.0,1.00,33.983679
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.50,93.704912
4,Almond Delight,R,C,110,2,2,200,1.0,14.0,8,-1,25,3,1.0,0.75,34.384843
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72,Triples,G,C,110,2,1,250,0.0,21.0,3,60,25,3,1.0,0.75,39.106174
73,Trix,G,C,110,1,1,140,0.0,13.0,12,25,25,2,1.0,1.00,27.753301
74,Wheat Chex,R,C,100,3,1,230,3.0,17.0,3,115,25,1,1.0,0.67,49.787445
75,Wheaties,G,C,100,3,1,200,3.0,17.0,3,110,25,1,1.0,1.00,51.592193


### Multi-Indices

Los dataframes pueden tener varios índices usando la funcionalidad de MultiIndex. Estos se pueden crear a partir de una lista de tuplas, con el método from_tuples, donde cada tupla contiene los nombres de cada columna o a partir de una combinación entre varias tuplas con el método from_product

In [None]:
columns = pd.MultiIndex.from_tuples([('A', 'positivo'), ('B', 'positivo'),
                                     ('A', 'negativo'), ('B', 'negativo'),
                                     ('O', 'positivo')],
                                     names=['tipo', 'Rh'])

Ahora se crea el Indice

In [None]:
rows = pd.MultiIndex.from_product([('menor', 'adulto'),('hombre', 'mujer')],
                                   names=['edad', 'sexo'])

df = pd.DataFrame(np.random.randn(4,5), columns=columns, index=rows)
df

Unnamed: 0_level_0,tipo,A,B,A,B,O
Unnamed: 0_level_1,Rh,positivo,positivo,negativo,negativo,positivo
edad,sexo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
menor,hombre,-0.692047,0.064227,-2.066008,0.769559,-0.470892
menor,mujer,0.348665,0.86668,-1.377113,1.058196,0.693107
adulto,hombre,-0.840677,-0.638252,-0.187147,1.253958,0.652891
adulto,mujer,-1.099024,0.931497,0.156546,0.365499,-1.089822


Para obtener información de las columnas de otros niveles, se debe referir primero la columna de primer nivel y luego a las de los niveles siguientes, en órden jerárquico.

In [None]:
df["A","positivo"]

Unnamed: 0_level_0,Unnamed: 1_level_0,A
Unnamed: 0_level_1,Unnamed: 1_level_1,positivo
edad,sexo,Unnamed: 2_level_2
menor,hombre,-0.692047
menor,mujer,0.348665
adulto,hombre,-0.840677
adulto,mujer,-1.099024


La función xs retorna la sección transversal de un DataFrame que usa multi-índices.
Por ejemplo, es útil cuando queremos filtrar todos los elementos de un determinado "Num" en el DataFrame anterior, independientemente de su Grupo.

In [None]:
# En este caso seleccionamos el Num=1
df.xs('hombre',level='sexo')

tipo,A,B,A,B,O
Rh,positivo,positivo,negativo,negativo,positivo
edad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
menor,-0.692047,0.064227,-2.066008,0.769559,-0.470892
adulto,-0.840677,-0.638252,-0.187147,1.253958,0.652891


# 3. Manipulando Data Frames

## Combinando DataFrames

Hay 3 maneras de combinar DataFrames:
Concatenar (concat)
Fusionar (merge)
Unir (join)

![wget](https://drive.google.com/uc?export=view&id=1wmJo-FJnofniKEkF-3RRR-Mk9IVuc-Nx)

_____
** DataFrames de ejemplo **

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3]
                   )

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]
                   )

In [None]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11'],
                        #'E': ['E8', 'E9', 'E10', 'E11']
                        },
                        index=[8, 9, 10, 11]
                   )

In [None]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [None]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [None]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


### Concatenar (concat)

La concatenación básicamente pega DataFrames, uno después de otro. Hay que tener en cuenta que las dimensiones deben coincidir a lo largo del eje con el que se está concatenando.

Puede usar **pd.concat** y pasar una lista de DataFrames para concatenarlos:

In [None]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [None]:
pd.concat([df1,df2,df3], axis=1)    # axis=1 concatena a lo largo de las columnas, llenando las celdas desconocidas con NaN

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


___

### Fusionar (merge)

La función **merge** permite fusionar DataFrames utilizando una lógica similar a la combinación de Tablas SQL. Por ejemplo:


In [None]:
izq = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

der = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
izq

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [None]:
der

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [None]:
pd.merge(izq, der, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


Otro ejemplo más completo:

In [None]:
izq = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

der = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
izq

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [None]:
der

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [None]:
pd.merge(izq, der, on=['key1','key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


#### Argumento 'how'

El método merge recibe el argumento 'how'. Éste especifica cómo determinar qué claves se incluirán en la tabla resultante. Si una combinación de dichas llaves no aparece en las tablas izquierda o derecha, los valores en la tabla fusionada serán NaN.

Aquí hay un resumen de las opciones de 'how' y sus nombres equivalentes en SQL:

	PANDAS	SQL					DESCRIPCIÓN
	inner	INNER JOIN			Usa la intersection de las llaves de ambos dataframes * Por defecto
    left	LEFT OUTER JOIN		Sólo usa las llaves del dataframe izquierdo
	right	RIGHT OUTER JOIN	Sólo usa las llaves del dataframe derecho
	outer	FULL OUTER JOIN		Usa la unión de las llaves de ambos dataframes

![](https://drive.google.com/uc?export=view&id=1k9cAel1FLYgou8ITAeqKE3vOIFBJydQB)

In [None]:
pd.merge(izq, der, how='outer', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [None]:
pd.merge(izq, der, how='left', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [None]:
pd.merge(izq, der, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [None]:
pd.merge(izq, der, how='inner', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


### Unión (join)

El join es un método para combinar las columnas de dos DataFrames indexados de forma diferente en un solo DataFrame de resultados.

En vez de columnas como en el merge, en el join se utilizan los índices de los DataFrames para hacer la combinación.


In [None]:
izq = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2'])

der = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [None]:
izq

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [None]:
der

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [None]:
izq.join(der)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [None]:
der.join(izq)

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K2,C2,D2,A2,B2
K3,C3,D3,,


In [None]:
izq.join(der, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


In [None]:
izq.join(der, how='inner')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


## Ejercicio
Realizar las operaciones de merge con *inner*, *outer*, *left* y *right* para los siguientes data frames

In [None]:
izq = pd.DataFrame({'nit': ['111111111', '222222222', '333333333', '444444444'],
                    'Nombre': ['Colpatria', 'Davivienda', 'Bancolombia', 'Bogota'],
                    'Direccion': ['Calle 100', 'Carrera 11', 'Calle 20', 'Diagonal 5']})
izq

Unnamed: 0,nit,Nombre,Direccion
0,111111111,Colpatria,Calle 100
1,222222222,Davivienda,Carrera 11
2,333333333,Bancolombia,Calle 20
3,444444444,Bogota,Diagonal 5


In [None]:
der = pd.DataFrame({'nit': ['111111111', '999999999', '333333333', '555555555'],
                    'Sucursales': [5, 20, np.nan, np.nan],
                    'Empleados': [3000, 4300, 30000, 13000]})
der

Unnamed: 0,nit,Sucursales,Empleados
0,111111111,5.0,3000
1,999999999,20.0,4300
2,333333333,,30000
3,555555555,,13000


In [None]:
# ToDO

## Función Apply

In [None]:
df = pd.DataFrame(np.random.randn(4,5), columns=columns, index=rows)
df

Unnamed: 0_level_0,tipo,A,B,A,B,O
Unnamed: 0_level_1,Rh,positivo,positivo,negativo,negativo,positivo
edad,sexo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
menor,hombre,0.36179,-0.489149,-1.149796,0.171307,-0.232901
menor,mujer,-1.008903,1.196724,-0.504749,-0.322658,0.227177
adulto,hombre,0.365015,-1.186138,0.389748,0.422416,-2.552948
adulto,mujer,0.544631,-0.446134,-0.209033,0.528068,-0.225046


In [None]:
df['A'].sum()

Unnamed: 0_level_0,0
Rh,Unnamed: 1_level_1
positivo,0.262533
negativo,-1.473829


In [None]:
def times2(x):
    return x*2

In [None]:
df['A']

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,0.36179,-1.149796
menor,mujer,-1.008903,-0.504749
adulto,hombre,0.365015,0.389748
adulto,mujer,0.544631,-0.209033


In [None]:
df['A'].apply(times2)

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,0.723581,-2.299592
menor,mujer,-2.017807,-1.009498
adulto,hombre,0.730029,0.779497
adulto,mujer,1.089262,-0.418065


In [None]:
df['B']

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,-0.489149,0.171307
menor,mujer,1.196724,-0.322658
adulto,hombre,-1.186138,0.422416
adulto,mujer,-0.446134,0.528068


In [None]:
# Apply es muy útil y puede ser usado también con expresiones lambda

df['B','positivo'].apply(lambda x: x*1.19)


Unnamed: 0_level_0,Unnamed: 1_level_0,B
Unnamed: 0_level_1,Unnamed: 1_level_1,positivo
edad,sexo,Unnamed: 2_level_2
menor,hombre,-0.582088
menor,mujer,1.424102
adulto,hombre,-1.411505
adulto,mujer,-0.530899


In [None]:
# También se puede usar con funciones predeterminadas como len
df['B'].apply(lambda x: x*2)

Unnamed: 0_level_0,Rh,positivo,negativo
edad,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
menor,hombre,-0.978299,0.342614
menor,mujer,2.393448,-0.645316
adulto,hombre,-2.372277,0.844831
adulto,mujer,-0.892268,1.056136


#Ejercicio
Aplicar una expresión lambda que eleve al cubo los valores de la columna O positivo

In [None]:
#ToDo


## Tablas Pivote

In [None]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['uno','uno','dos','dos','uno','uno'],
       'C':['categoria 1','categoria 1','categoria 1','categoria 2','categoria 1','categoria 2'],
       'D':[5,3,2,5,4,1]}

df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,A,B,C,D
0,foo,uno,categoria 1,5
1,foo,uno,categoria 1,3
2,foo,dos,categoria 1,2
3,bar,dos,categoria 2,5
4,bar,uno,categoria 1,4
5,bar,uno,categoria 2,1


In [None]:
df.pivot_table(values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,categoria 1,categoria 2
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,dos,,5.0
bar,uno,4.0,1.0
foo,dos,2.0,
foo,uno,4.0,


In [None]:
df.pivot_table?

Otro ejemplo:

In [None]:
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",
                         "bar", "bar", "bar", "bar"],
                    "B": ["one", "one", "one", "two", "two",
                          "one", "one", "two", "two"],
                    "C": ["small", "large", "large", "small",
                          "small", "large", "small", "small",
                          "large"],
                    "D": [1, 2, 2, 3, 3, 4, 5, 6, 7]})
df

Unnamed: 0,A,B,C,D
0,foo,one,small,1
1,foo,one,large,2
2,foo,one,large,2
3,foo,two,small,3
4,foo,two,small,3
5,bar,one,large,4
6,bar,one,small,5
7,bar,two,small,6
8,bar,two,large,7


In [None]:
table = df.pivot_table(values='D', index=['A', 'B'],
                     columns=['C'], aggfunc=np.sum)
table

  table = df.pivot_table(values='D', index=['A', 'B'],


Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,5.0
bar,two,7.0,6.0
foo,one,4.0,1.0
foo,two,,6.0


## Agrupaciones y agregaciones: Groupby

El método groupby permite agrupar filas de datos basándose en el valor de una columna, y llamar a funciones de agregación sobre los datos: suma, conteo, promedio, ...

![](https://drive.google.com/uc?export=view&id=1dxdpTG6ZJovzaxzerMFLPIv8daDlfFvV)

In [None]:
import pandas as pd

# Datos para crear el dataframe
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Persona':['Ana','Carlos','Manuela','Vanessa','Camilo','Sara'],
       'Ventas':[200,120,340,124,243,350]}

In [None]:
df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,Empresa,Persona,Ventas
0,GOOG,Ana,200
1,GOOG,Carlos,120
2,MSFT,Manuela,340
3,MSFT,Vanessa,124
4,FB,Camilo,243
5,FB,Sara,350


**Ahora usaremos el método .groupby() para agrupar las filas basándose en los datos de una columna. Por ejemplo, el nombre de la compañía. Esto creará un objeto DataFrameGroupBy.**

In [None]:
df.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x79396efd2020>

Se puede guardar este objeto como una nueva variable:

In [None]:
by_empresa = df.groupby("Empresa")
by_empresa

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x79396efd0460>

In [None]:
df.groupby?

Y luego llamar funciones de agregación sobre este objeto.
Las funciones de agregación tendrán efecto sobre las columnas que sea posible, es decir, si son funciones numéricas sólo tendrán efecto sobre los datos numéricos:

In [None]:
by_empresa["Ventas"].mean()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


In [None]:
df.groupby('Empresa')["Ventas"].mean()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


Más ejemplos de funciones de agregación:

In [None]:
by_empresa["Ventas"].std()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,75.660426
GOOG,56.568542
MSFT,152.735065


In [None]:
df

Unnamed: 0,Empresa,Persona,Ventas
0,GOOG,Ana,200
1,GOOG,Carlos,120
2,MSFT,Manuela,340
3,MSFT,Vanessa,124
4,FB,Camilo,243
5,FB,Sara,350


In [None]:
# En este caso la función min también tiene efecto sobre los datos textuales; se devuelve el menor valor de la cadena
# del nombre de las personas (ordenado lexicograficamente). Nótese que el valor de las ventas, no corresponde al de la persona,
# sino al valor menor de ventas de la empresa.

by_empresa["Ventas"].min()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,243
GOOG,120
MSFT,124


In [None]:
by_empresa["Ventas"].max()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,350
GOOG,200
MSFT,340


In [None]:
by_empresa["Ventas"].count()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,2
GOOG,2
MSFT,2


In [None]:
by_empresa["Ventas"].sum()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,593
GOOG,320
MSFT,464


In [None]:
# Podemos acceder a un solo valor:

by_empresa.sum().loc['FB']

  by_empresa.sum().loc['FB']


Ventas    593
Name: FB, dtype: int64

In [None]:
# Muchas veces no se crea un objeto groupby de forma explícita, sino que se utiliza directamente:

df.groupby('Empresa').sum().loc['FB']

  df.groupby('Empresa').sum().loc['FB']


Ventas    593
Name: FB, dtype: int64

In [None]:
# El metodo describe es útil para presentar mucha información acerca del dataframe:

by_empresa.describe()

Unnamed: 0_level_0,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


In [None]:
by_empresa.describe().transpose()

Unnamed: 0,Empresa,FB,GOOG,MSFT
Ventas,count,2.0,2.0,2.0
Ventas,mean,296.5,160.0,232.0
Ventas,std,75.660426,56.568542,152.735065
Ventas,min,243.0,120.0,124.0
Ventas,25%,269.75,140.0,178.0
Ventas,50%,296.5,160.0,232.0
Ventas,75%,323.25,180.0,286.0
Ventas,max,350.0,200.0,340.0


In [None]:
by_empresa.describe().transpose()['GOOG']

Ventas  count      2.000000
        mean     160.000000
        std       56.568542
        min      120.000000
        25%      140.000000
        50%      160.000000
        75%      180.000000
        max      200.000000
Name: GOOG, dtype: float64