# Manipulación de datos con Pandas


Hay multitud de formas de consultar datos tabulares. Lo más común es que nuestros datos se encuentren en una base de datos y consultemos con un lenguaje de consultas como SQL. Python tiene sus propias librerías para consultar y manipular datos pero la más común es Pandas.

Pandas es una librería espacializada en el manejo y análisis de estructuras de datos:

- Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.
- Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
- Permite acceder a los datos mediante índices o nombres para filas y columnas.
- Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
- Permite trabajar con series temporales.
- Realiza todas estas operaciones de manera muy eficiente.

Aunque Pandas tiene varias estructuras de datos, nos centraremos en la 2-Dimensional (llamadas DataFrames) y en las 1-dimensionales (llamadas Series).

Un DataFrame es una unión de varias Series. Si un Dataframe es una tabla, una Serie es una columna de esa tabla.

Comenzando importando la librería

In [1]:
import pandas as pd # pd es el alias a la librería pandas y esto es un comentario en el código

## 2.1 Leer un CSV con Pandas

Lo primero es lo básico, leer nuestros datos. Pandas admite bastantes formatos como fuente: excel, pdf, parquet,etc... Pero nosotros nos focalizaremos en este seminario en el más básico y común que es CSV. 

CSV es un formato de texto plano con un delimitador que suele ser una coma. La primera fila o nombre de las columnas se le llama header. Por defecto, el delimitador de pandas es la coma y el header está incluido, sin embargo para este primer ejemplo lo especificaremos explícitamente.

In [27]:
df = pd.read_csv('data/worldcities.csv',header=0,delimiter=',')

También podemos leer el csv especificando una ruta completa en nuestro equipo.

In [28]:
df = pd.read_csv('C:/Users/Jorge/Desktop/Seminario - Introduccion al analisis de datos geograficos con Python/data/worldcities.csv')

O incluso una ruta en internet.

Notamos que el tipo de datos es propio de la librería y en este caso es DataFrame.

In [6]:
type(df)

pandas.core.frame.DataFrame

Usamos print para mostrar en pantalla el dataframe.

In [7]:
print(df)

              city   city_ascii      lat       lng      country iso2 iso3  \
0            Tokyo        Tokyo  35.6839  139.7744        Japan   JP  JPN   
1          Jakarta      Jakarta  -6.2146  106.8451    Indonesia   ID  IDN   
2            Delhi        Delhi  28.6667   77.2167        India   IN  IND   
3           Manila       Manila  14.6000  120.9833  Philippines   PH  PHL   
4        São Paulo    Sao Paulo -23.5504  -46.6339       Brazil   BR  BRA   
...            ...          ...      ...       ...          ...  ...  ...   
42900       Tukchi       Tukchi  57.3670  139.5000       Russia   RU  RUS   
42901        Numto        Numto  63.6667   71.3333       Russia   RU  RUS   
42902         Nord         Nord  81.7166  -17.8000    Greenland   GL  GRL   
42903  Timmiarmiut  Timmiarmiut  62.5333  -42.2167    Greenland   GL  GRL   
42904      Nordvik      Nordvik  74.0165  111.5100       Russia   RU  RUS   

                                     admin_name  capital  population  \
0  

## 2.2 Explorar datos

El método print muestra el dato tal y como es pero Pandas tiene un par de métodos y atributos para hacernos más claro la exploración, estos son head, columns, describe, info

Muestra los 5 primeros pero especificando el número de registros podemos ver más.

In [8]:
df.head()

Unnamed: 0,city,city_ascii,lat,lng,country,iso2,iso3,admin_name,capital,population,id
0,Tokyo,Tokyo,35.6839,139.7744,Japan,JP,JPN,Tōkyō,primary,39105000.0,1392685764
1,Jakarta,Jakarta,-6.2146,106.8451,Indonesia,ID,IDN,Jakarta,primary,35362000.0,1360771077
2,Delhi,Delhi,28.6667,77.2167,India,IN,IND,Delhi,admin,31870000.0,1356872604
3,Manila,Manila,14.6,120.9833,Philippines,PH,PHL,Manila,primary,23971000.0,1608618140
4,São Paulo,Sao Paulo,-23.5504,-46.6339,Brazil,BR,BRA,São Paulo,admin,22495000.0,1076532519


In [9]:
df.head(20)

Unnamed: 0,city,city_ascii,lat,lng,country,iso2,iso3,admin_name,capital,population,id
0,Tokyo,Tokyo,35.6839,139.7744,Japan,JP,JPN,Tōkyō,primary,39105000.0,1392685764
1,Jakarta,Jakarta,-6.2146,106.8451,Indonesia,ID,IDN,Jakarta,primary,35362000.0,1360771077
2,Delhi,Delhi,28.6667,77.2167,India,IN,IND,Delhi,admin,31870000.0,1356872604
3,Manila,Manila,14.6,120.9833,Philippines,PH,PHL,Manila,primary,23971000.0,1608618140
4,São Paulo,Sao Paulo,-23.5504,-46.6339,Brazil,BR,BRA,São Paulo,admin,22495000.0,1076532519
5,Seoul,Seoul,37.56,126.99,South Korea,KR,KOR,Seoul,primary,22394000.0,1410836482
6,Mumbai,Mumbai,19.0758,72.8775,India,IN,IND,Mahārāshtra,admin,22186000.0,1356226629
7,Shanghai,Shanghai,31.1667,121.4667,China,CN,CHN,Shanghai,admin,22118000.0,1156073548
8,Mexico City,Mexico City,19.4333,-99.1333,Mexico,MX,MEX,Ciudad de México,primary,21505000.0,1484247881
9,Guangzhou,Guangzhou,23.1288,113.259,China,CN,CHN,Guangdong,admin,21489000.0,1156237133


In [10]:
df.columns

Index(['city', 'city_ascii', 'lat', 'lng', 'country', 'iso2', 'iso3',
       'admin_name', 'capital', 'population', 'id'],
      dtype='object')

El método describe() nos dice algunas propiedades numéricas sobre los valores numéricos de nuestro conjunto de datos.

In [11]:
df.describe()

Unnamed: 0,lat,lng,population,id
count,42905.0,42905.0,42180.0,42905.0
mean,30.022893,0.457852,107053.9,1471166000.0
std,23.20657,71.04046,715403.6,279871400.0
min,-54.9341,-179.59,0.0,1004003000.0
25%,17.7694,-70.5685,8212.0,1250211000.0
50%,38.7049,6.0842,15778.5,1398354000.0
75%,46.1706,34.9328,39613.25,1764392000.0
max,81.7166,179.3667,39105000.0,1934000000.0


El método info() nos da un conteo de valores no nulos y tipado de datos. Object funciona como una variable categórica (por ejemplo, datos strings)

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42905 entries, 0 to 42904
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   city        42904 non-null  object 
 1   city_ascii  42904 non-null  object 
 2   lat         42905 non-null  float64
 3   lng         42905 non-null  float64
 4   country     42905 non-null  object 
 5   iso2        42873 non-null  object 
 6   iso3        42905 non-null  object 
 7   admin_name  42810 non-null  object 
 8   capital     9812 non-null   object 
 9   population  42180 non-null  float64
 10  id          42905 non-null  int64  
dtypes: float64(3), int64(1), object(7)
memory usage: 3.6+ MB


## 2.3 Seleccionar columnas

Seleccionamos la columna ciudad

In [13]:
df["city"]

0              Tokyo
1            Jakarta
2              Delhi
3             Manila
4          São Paulo
            ...     
42900         Tukchi
42901          Numto
42902           Nord
42903    Timmiarmiut
42904        Nordvik
Name: city, Length: 42905, dtype: object

Podemos observar que el tipo de la columna ciudad es una Series. Una columna de un Dataframe es una Series, que es otro tipo de datos en Python.

In [14]:
type(df["city"])

pandas.core.series.Series

Mostramos todas las ciudades de nuestro conjunto de datos.

In [None]:
for city in df["city"].unique():
    print(city)

Si queremos sacar información concreta de nuestro conjunto de datos. EL método drop_duplicates() nos permite sacar duplicados.

In [16]:
unique_city_country = df[["city", "country"]].drop_duplicates()

In [17]:
unique_city_country.head()

Unnamed: 0,city,country
0,Tokyo,Japan
1,Jakarta,Indonesia
2,Delhi,India
3,Manila,Philippines
4,São Paulo,Brazil


Vamos a mostrarlo en pantalla con un f-string.

In [None]:
for _, row in unique_city_country.iterrows():
    print(f"La ciudad {row['city']} está en {row['country']}")


Lo exportamos como un CSV.

In [19]:
unique_city_country.to_csv('data/ciudades_paises.csv',index=False)

## 2.4 Filtrar por un campo específico

In [20]:
df["city"]=='Tokyo'

0         True
1        False
2        False
3        False
4        False
         ...  
42900    False
42901    False
42902    False
42903    False
42904    False
Name: city, Length: 42905, dtype: bool

In [21]:
df[df["city"]=='Tokyo']

Unnamed: 0,city,city_ascii,lat,lng,country,iso2,iso3,admin_name,capital,population,id
0,Tokyo,Tokyo,35.6839,139.7744,Japan,JP,JPN,Tōkyō,primary,39105000.0,1392685764


In [22]:
df[(df["country"]=='Japan')&(df["population"]>39105000.0)]

Unnamed: 0,city,city_ascii,lat,lng,country,iso2,iso3,admin_name,capital,population,id


In [23]:
df[(df["country"]=='Japan')&(df["population"]>12105000.0)]

Unnamed: 0,city,city_ascii,lat,lng,country,iso2,iso3,admin_name,capital,population,id
0,Tokyo,Tokyo,35.6839,139.7744,Japan,JP,JPN,Tōkyō,primary,39105000.0,1392685764
18,Ōsaka,Osaka,34.752,135.4582,Japan,JP,JPN,Ōsaka,admin,15490000.0,1392419823


## 2.5 Ordenar por un campo

Seguramente nos interese ver la información ordenada por cierto campo, a continuación veremos como hacerlo tanto en orden creciente como decreciente.

Además, aprovecharemos para mostrar como alterar el número mínimo y máximo de filas y columnas que podemos ver por pantalla.

In [None]:
pd.set_option('display.max_rows', 5)
# pd.set_option('display.max_rows', None)
# pd.set_option('display.max_columns', None)

In [34]:
df[(df["country"]=='Japan')].sort_values("population").head(1327)

Unnamed: 0,city,city_ascii,lat,lng,country,iso2,iso3,admin_name,capital,population,id
41911,Naganohara,Naganohara,36.5522,138.6375,Japan,JP,JPN,Gunma,,5026.0,1392960848
41884,Kaneyama,Kaneyama,38.8833,140.3394,Japan,JP,JPN,Yamagata,,5045.0,1392255901
...,...,...,...,...,...,...,...,...,...,...,...
18,Ōsaka,Osaka,34.7520,135.4582,Japan,JP,JPN,Ōsaka,admin,15490000.0,1392419823
0,Tokyo,Tokyo,35.6839,139.7744,Japan,JP,JPN,Tōkyō,primary,39105000.0,1392685764


In [30]:
df[(df["country"]=='Japan')].sort_values("population", ascending=False).head(1327)

Unnamed: 0,city,city_ascii,lat,lng,country,iso2,iso3,admin_name,capital,population,id
0,Tokyo,Tokyo,35.6839,139.7744,Japan,JP,JPN,Tōkyō,primary,39105000.0,1392685764
18,Ōsaka,Osaka,34.7520,135.4582,Japan,JP,JPN,Ōsaka,admin,15490000.0,1392419823
43,Nagoya,Nagoya,35.1167,136.9333,Japan,JP,JPN,Aichi,admin,9522000.0,1392407472
204,Yokohama,Yokohama,35.4333,139.6333,Japan,JP,JPN,Kanagawa,admin,3757630.0,1392118339
337,Fukuoka,Fukuoka,33.6000,130.4167,Japan,JP,JPN,Fukuoka,admin,2280000.0,1392576294
...,...,...,...,...,...,...,...,...,...,...,...
41760,Oshamambe,Oshamambe,42.5136,140.3804,Japan,JP,JPN,Hokkaidō,,5112.0,1392512191
41692,Ochi,Ochi,33.5328,133.2519,Japan,JP,JPN,Kōchi,,5111.0,1392035701
41917,Imagane,Imagane,42.4294,140.0086,Japan,JP,JPN,Hokkaidō,,5052.0,1392052641
41884,Kaneyama,Kaneyama,38.8833,140.3394,Japan,JP,JPN,Yamagata,,5045.0,1392255901


## 2.6 Agrupar por campos

La agrupación crea una estructura de Pandas llamada DataFrameGroupBy. Esta estructura no realiza ninguna operación de cálculo por sí misma inmediatamente. En cambio, espera a que se le indique qué operación realizar 

In [24]:
type(df.groupby("country")["population"])

pandas.core.groupby.generic.SeriesGroupBy

Una vez aquí hay muchos opciones, podemos:

- Calcular métricas complejas.
- Calcular columnas específicas.
- Filtrar por estructuras específicas.

In [25]:
pop_por_pais = df.groupby("country")["population"].sum().sort_values(ascending=False)

pop_por_pais

country
China                     1.425714e+09
United States             4.014537e+08
India                     2.925420e+08
Brazil                    2.027282e+08
Japan                     1.841228e+08
                              ...     
Svalbard                  0.000000e+00
Pitcairn Islands          0.000000e+00
British Virgin Islands    0.000000e+00
Saint Barthelemy          0.000000e+00
Norfolk Island            0.000000e+00
Name: population, Length: 239, dtype: float64

In [26]:
df.groupby("country")["city"].count()

country
Afghanistan           45
Albania               51
Algeria              157
American Samoa         1
Andorra                7
                    ... 
Wallis And Futuna      2
West Bank              1
Yemen                 42
Zambia                35
Zimbabwe              26
Name: city, Length: 239, dtype: int64

## Ejercicio 2. Aeropuertos del mundo (20 min)

a) Lee el CSV directamente desde la URL: https://ourairports.com/data/airports.csv usando pd.read_csv. 

b) Muestra las primeras 5 filas con head().

c) Visualiza columna, tipos de datos, descripción estadística y recuento con columns, info(), y describe() ¿Cuál es el nivel de granulabilidad de la tabla?

d) Crea un DataFrame solo con columnas relevantes: ["name", "iso_country", "type", "continent", "elevation_ft"].

e) Selecciona primeras 10 aeropuertos de tipo "large_airport".

f) Lista los diferentes tipos de aeropuertos (df["type"].unique()).

g) Lista de continentes presentes (iso_country y continent).

h) Agrupa por iso_country y calcula:

- Número de aeropuertos por país
- Número de aeropuertos por tipo

i) Exporta uno de estos dataframes a csv.

## Material adicional

- Para otros formatos, vease la documentación oficial de pandas sobre input/outputs. https://pandas.pydata.org/docs/reference/io.html
- Más datasets de aeropuertos: https://ourairports.com/data/
- Curso de Pandas paso a paso: https://www.juanbarrios.com/curso-de-pandas-completo-desde-cero/