# **Base de datos y Mapas**
Luisa Gomez (luisa.gomez@pucp.edu.pe)

## **Objetivos**
- Comprender las características geoespaciales
- Generar mapas interactivos con Folium

## **Contenido**
 1. Librería Geopandas
 2. Depuración de la base de datos
 3. Librería Folium

----

In [1]:
### Con este código elegimos el archivo o los archivos del escritorio que deseamos abrir

from google.colab import files
uploaded = files.upload()

Saving GENERAL.xlsx to GENERAL.xlsx
Saving languages_and_dialects_geo.csv to languages_and_dialects_geo.csv


In [2]:
# Importamos las librerías (solo es necesario importar una vez)
import pandas as pd     # Te permite trabajar con archivos csv o excel
import matplotlib.pyplot as plt  # Te permite dibujar gráficos 2D
import geopandas as gpd # Te pemrite dibujar mapas y trabajar con ellos

## Por el momento solo trabajaremos con mapas interactivos debido a que Geopandas ha sufrido una actualización que pro el momento no permite trabjarla desde Google Colab

----
## **1. Librería Geopandas**

Geopandas es una biblioteca de Python que extiende las capacidades de pandas para trabajar con **datos espaciales**. Esta herramienta permite la manipulación y el análisis de datos geoespaciales mediante estructuras de datos especiales que incluyen coordenadas geográficas.

1. Estructuras de Datos en Geopandas
- GeoDataFrame: es similar al DataFrame de pandas, pero se adapta para manejar información espacial. Cada fila de un GeoDataFrame representa una entidad geográfica  y puede incluir una geometría, que representa la forma o ubicación de esa entidad.
- GeoSeries: es como una serie en pandas, pero almacena información de geometrías (puntos, líneas o polígonos). Es la columna principal en un GeoDataFrame y contiene los objetos geométricos de las entidades.
2. Tipos de Geometrías
- Punto (Point): representa ubicaciones en coordenadas X e Y (como latitud y longitud).
- Línea (LineString): representa una línea que conecta varios puntos
- Polígono (Polygon): representa áreas con límites específicos

---

In [3]:
# Cargamos el archivo de Excel en un DataFrame
datos_general = pd.read_excel('GENERAL.xlsx')

In [4]:
# Cargamos el archivo de CSV en un DataFrame
datos_glotolog = pd.read_csv('languages_and_dialects_geo.csv')

In [5]:
# Visualizamos las cinco primeras filas de la tabla de datos
print(datos_general.head())

  Glottocode          Language   Latitude  Longitude ISO 639-3 Country  \
0   abip1241            Abipon -29.000000 -61.000000       axb      AR   
1   mure1235              Mure -13.636709 -62.202091       NaN      BO   
2   otom1276  Otomaco-Taparita   7.869912 -70.997315       NaN      VE   
3   acha1250           Achagua   4.386490 -72.200500       aca      CO   
4   ache1246              Aché -25.586500 -56.469700       guq      PY   

        Description      Status     Level Isolate            Family  \
0      Long grammar     Extinct  language      No        Guaicuruan   
1  Wordlist or less     Extinct  language     Yes                NK   
2   Not description  Not status    Family      No  Otomaco-Taparita   
3           Grammar    Shifting  language      No          Arawakan   
4    Grammar sketch    Moribund  language      No            Tupian   

     Family_W   Family_GB  Family_S   Family_GL Family_ID  GB  W  S  
0  Guaicuruan  Guaicuruan       NaN  Guaicuruan       NaN 

In [6]:
# Visualizamos las cinco primeras filas de la tabla de datos
print(datos_glotolog.head())

  glottocode        name isocodes     level  macroarea  latitude  longitude
0   3adt1234  3Ad-Tekles      NaN   dialect     Africa       NaN        NaN
1   aala1237      Aalawa      NaN   dialect  Papunesia       NaN        NaN
2   aant1238  Aantantara      NaN   dialect  Papunesia       NaN        NaN
3   aari1239        Aari      aiw  language     Africa   5.95034    36.5721
4   aari1240      Aariya      aay  language    Eurasia       NaN        NaN


### **Calculamos la cantidad de datos**

In [7]:
# Contamos el número de datos que tiene la tabla de datos_general
total_datos = len(datos_general)

# Mostramos
print(total_datos)

1207


In [8]:
# Contamos el número de datos que tiene la tabla de datos_glotolog
total_glottolog = len(datos_glotolog)

# Mostramos
print(total_glottolog)

21957


## **2. Depuración de la Base de datos**

### **Filtramos los datos**

In [9]:
# Filtramos los datos de la tabla de datos_general para obtener solo las columnas que nos interesan
datos = datos_general[["Glottocode", "Language", "Latitude",  "Longitude", "Isolate", "Family", "GB",  "W",  "S"]]

# Visualizamos la tabla
print(datos)

     Glottocode                       Language   Latitude  Longitude Isolate  \
0      abip1241                         Abipon -29.000000 -61.000000      No   
1      mure1235                           Mure -13.636709 -62.202091     Yes   
2      otom1276               Otomaco-Taparita   7.869912 -70.997315      No   
3      acha1250                        Achagua   4.386490 -72.200500      No   
4      ache1246                           Aché -25.586500 -56.469700      No   
...         ...                            ...        ...        ...     ...   
1202   zapa1253                         Záparo  -1.998710 -76.364000      No   
1203   kari1301             Uaçá Creole French   3.428250 -51.688800      No   
1204   kari1318         Karipuna Creole French   3.428250 -51.688800      No   
1205   gali1270  Galibi-Marworno Creole French   3.428250 -51.688800      No   
1206   pali1280          Palikur Creole French   3.428250 -51.688800      No   

                Family  GB  W  S  
0   

### **Eliminamos datos**

In [10]:
# Opción 1: Eliminamos las filas donde 'Family' es igual a 'NK' (no conocido)

datos_1 = datos[datos["Family"] != "NK"]

# Visualizamos la tabla
print(datos_1)

     Glottocode                       Language   Latitude  Longitude Isolate  \
0      abip1241                         Abipon -29.000000 -61.000000      No   
2      otom1276               Otomaco-Taparita   7.869912 -70.997315      No   
3      acha1250                        Achagua   4.386490 -72.200500      No   
4      ache1246                           Aché -25.586500 -56.469700      No   
5      achu1248                 Achuar-Shiwiar  -2.826460 -77.264100      No   
...         ...                            ...        ...        ...     ...   
1202   zapa1253                         Záparo  -1.998710 -76.364000      No   
1203   kari1301             Uaçá Creole French   3.428250 -51.688800      No   
1204   kari1318         Karipuna Creole French   3.428250 -51.688800      No   
1205   gali1270  Galibi-Marworno Creole French   3.428250 -51.688800      No   
1206   pali1280          Palikur Creole French   3.428250 -51.688800      No   

                Family  GB  W  S  
0   

In [11]:
# opción 2: con la función drop de pandas podemos eliminar las filas donde 'Family' es igual a 'NK' (no conocido)
datos.drop(datos[datos["Family"] == "NK"].index, inplace=True)
# inplace=True modifica la tabla original y no crea una nueva
# .index nos permite obtener los índices de las filas que cumplen la condición

# Visualizamos la tabla
print(datos)

     Glottocode                       Language   Latitude  Longitude Isolate  \
0      abip1241                         Abipon -29.000000 -61.000000      No   
2      otom1276               Otomaco-Taparita   7.869912 -70.997315      No   
3      acha1250                        Achagua   4.386490 -72.200500      No   
4      ache1246                           Aché -25.586500 -56.469700      No   
5      achu1248                 Achuar-Shiwiar  -2.826460 -77.264100      No   
...         ...                            ...        ...        ...     ...   
1202   zapa1253                         Záparo  -1.998710 -76.364000      No   
1203   kari1301             Uaçá Creole French   3.428250 -51.688800      No   
1204   kari1318         Karipuna Creole French   3.428250 -51.688800      No   
1205   gali1270  Galibi-Marworno Creole French   3.428250 -51.688800      No   
1206   pali1280          Palikur Creole French   3.428250 -51.688800      No   

                Family  GB  W  S  
0   

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datos.drop(datos[datos["Family"] == "NK"].index, inplace=True)


In [12]:
# Opción 3: con .dropna() eliminamos las filas que contienen valores nulos (NaN)
glottolog = datos_glotolog.dropna()

# Visualizamos la tabla
print(glottolog)

      glottocode             name isocodes     level      macroarea  latitude  \
3       aari1239             Aari      aiw  language         Africa   5.95034   
5       aasa1238            Aasax      aas  language         Africa  -4.00679   
11      abad1241            Abadi      kbt  language      Papunesia  -9.03389   
13      abag1245            Abaga      abg  language      Papunesia  -6.12028   
15      abai1240      Abai Sungai      abf  language      Papunesia   5.55394   
...          ...              ...      ...       ...            ...       ...   
21938   zuma1239           Zumaya      zuy  language         Africa  10.55798   
21940   zumb1240           Zumbun      jmb  language         Africa  10.82700   
21945   zuni1245             Zuni      zun  language  North America  35.00560   
21946   zuoj1238  Zuojiang Zhuang      zzj  language        Eurasia  22.40000   
21954   zyph1238            Zyphe      zyp  language        Eurasia  22.52400   

       longitude  
3       

### **Calculamos las lenguas que están en tres columnas: GB, W, S**

In [13]:
# Calculamos el número de lenguas en cada columna de la tabla de datos
lenguas_W = len(datos[datos['W'] == 1])
lenguas_GB = len(datos[datos['GB'] == 1])
lenguas_S = len(datos[datos['S'] == 1])

# Mostramos el número de lenguas en cada columna
print(lenguas_W)
print(lenguas_GB)
print(lenguas_S)




228
204
142


In [14]:
# Lenguas aisladas en toda la base de datos

# Contamos el número de lenguas aisladas en la columna 'Isolate'
# value_counts() cuenta el número de veces que se repite cada valor en la columna
aisladas = datos_general["Isolate"].value_counts()

# Mostramos la tabla
print(aisladas)

Isolate
No         966
Yes        127
NK          83
Retired     31
Name: count, dtype: int64


In [16]:
aisladas

Unnamed: 0_level_0,count
Isolate,Unnamed: 1_level_1
No,966
Yes,127
NK,83
Retired,31


In [15]:
print(type(aisladas))

<class 'pandas.core.series.Series'>


En pandas, Series es una estructura de datos unidimensional, similar a un array, lista o columna en una tabla. Es uno de los tipos básicos de datos en pandas y es útil para almacenar datos etiquetados, en donde cada elemento tiene una categoría (etiqueta) que lo identifica.

Convertir una Series en un DataFrame puede ser necesario cuando necesitamos manejar múltiples columnas o queremos aprovechar funcionalidades adicionales que DataFrame ofrece y que Series no tiene.

In [17]:
# Convertimos la Serie a Dataframe
aisladas_df = pd.DataFrame(aisladas)

print(aisladas_df)

         count
Isolate       
No         966
Yes        127
NK          83
Retired     31


In [19]:
print(type(aisladas_df))

<class 'pandas.core.frame.DataFrame'>


In [22]:
# Deseo renombrar la columna "count" por "Número de lenguas"
aisladas_final = aisladas_df.rename(columns={"count": "Número de lenguas"})

# Visualizamos la tabla
print(aisladas_final)

         Número de lenguas
Isolate                   
No                     966
Yes                    127
NK                      83
Retired                 31


## **3. Mapas interactivos:  Librería Folium**

In [23]:
# Filtramos las lenguas de la columna 'S'

datos_Sails =  datos[datos["S"] == 1]

print(datos_Sails)

     Glottocode                  Language  Latitude  Longitude Isolate  \
3      acha1250                   Achagua   4.38649   -72.2005      No   
5      achu1248            Achuar-Shiwiar  -2.82646   -77.2641      No   
6      agua1253                  Aguaruna  -5.30044   -77.9218      No   
11     amar1274                Amarakaeri -12.49310   -70.5533      No   
15     apal1257                    Apalaí   1.49792   -54.7457      No   
...         ...                       ...       ...        ...     ...   
1165   tena1240      Tena Lowland Quichua  -0.76271   -77.5404      No   
1172   yuqu1240                     Yuqui -16.78750   -64.9438      No   
1173   sout2990  Southern Pastaza Quechua  -3.32733   -76.5270      No   
1186   yura1255                  Yuracaré -16.74790   -65.1224     Yes   
1202   zapa1253                    Záparo  -1.99871   -76.3640      No   

         Family  GB  W  S  
3      Arawakan   1  1  1  
5       Chicham   1  1  1  
6       Chicham   1  1  1  

In [26]:
# Creamos una variable para filtrar solo las lenguas de la familia Quechuan

familia_buscada = "Quechuan"

quechua = datos_Sails[datos_Sails["Family"] == familia_buscada]

print(quechua)

     Glottocode                     Language  Latitude  Longitude Isolate  \
38     ayac1239             Ayacucho Quechua -13.84714  -74.32246      No   
69     caja1238            Cajamarca Quechua  -7.09314  -78.32140      No   
261    cusc1236                Cusco Quechua -14.08530  -71.76630      No   
346    hual1241     Huallaga Huánuco Quechua  -9.57135  -75.59400      No   
381    imba1240    Imbabura Highland Quichua   0.31776  -78.37290      No   
385    paca1245             Pacaraos Quechua -11.14278  -76.73046      No   
387    inga1252               Colombian Inga   1.00313  -76.86060      No   
659    nort2980          North Junín Quechua -11.21320  -75.81280      No   
739    huay1240       Huaylas Ancash Quechua  -9.38709  -77.77680      No   
742    jauj1238          Jauja Wanca Quechua -11.67470  -75.27860      No   
841    sant1432  Santiago del Estero Quichua -27.82100  -63.24660      No   
895    sanm1289           San Martín Quechua  -6.95820  -76.66080      No   

In [27]:
# Calcular el número de lenguas que conforman la familia Quechua
total_quechua = len(quechua)

print(total_quechua)

18


-  Folium es una librería que nos permite trabajar con mapas interactivos
-  Los datos de los mapas se obtienen de OpenStreetMap
- OpenStreetMap es un proyecto colaborativo que permite crear mapas libres y editables
- Los datos necesarios para ubicar los puntos en el mapa son la latitud y la longitud

In [28]:
# Importamos la librería folium
import folium

# Creamos el mapa centrado que contenga todo el mundo
mapa_general = folium.Map(location=[0.0, 100.0], zoom_start=4, tiles="OpenStreetMap")

# Agregamos un marcador por cada fila de la tabla de glottolog
# iterrows() nos permite recorrer todas las filas de la tabla
# row es una variable que contiene los datos de cada fila
# folium.Marker() crea un marcador en el mapa
# location=[row["latitude"], row["longitude"]] establece la ubicación del marcador
# popup=row['macroarea'] establece el texto emergente del marcador
# tooltip=row["glottocode"] establece el texto emergente del marcador
# .add_to(mapa_general) agrega el marcador al mapa
for _, row in glottolog.iterrows():
    folium.Marker(
        location=[row["latitude"], row["longitude"]],
        popup= row['macroarea'],  # Concatenamos las columnas
        tooltip=row["glottocode"]  # Código ISO como texto emergente
    ).add_to(mapa_general)

# Guardar el mapa en un archivo HTML
mapa_general.save("mapa_general.html")

# Mostrar el mapa
mapa_general

Output hidden; open in https://colab.research.google.com to view.

In [29]:
# Importamos la librería folium
# import folium

# Creamos el mapa centrado en Sudamérica
# tiles="OpenStreetMap" establece el tipo de mapa
# location=[-15.0, -70.0] establece la ubicación y el zoom del mapa
mapa_quechua = folium.Map(location=[-15.0, -70.0], zoom_start=3, tiles="OpenStreetMap")

# Agregamos un marcador para cada lengua en la familia Quechuan
for _, row in quechua.iterrows():
    folium.Marker(
        location=[row["Latitude"], row["Longitude"]],
        popup=f"{row['Language']} \n Isolate: {row['Isolate']}", # Concatenamos las columnas con un salto de línea
        tooltip=row["Glottocode"]  # Glottocode como texto emergente
    ).add_to(mapa_quechua)

# Guardar el mapa en un archivo HTML
mapa_quechua.save("mapa_quechua.html")

# Mostrar el mapa
mapa_quechua


### Crear un diccionario con información sobre latitud y longitud.
### Luego, agregarlo a un dataframe (tabla) para completar la información

In [30]:
# Creamos un dataframe a partir de un diccionario de Python

dic_inicial = {
"País" : ["Perú", "Chile", "Argentina"],
"Capital" : ["Lima", "Santiago de Chile", "Buenos Aires"]}

# Creamos un DataFrame a partir del diccionario anterior
df_base = pd.DataFrame(dic_inicial)

# Visualizamos el DataFrame
print(df_base)

        País            Capital
0       Perú               Lima
1      Chile  Santiago de Chile
2  Argentina       Buenos Aires


In [31]:
# Creamos un diccionario con las coordenadas de las capitales
dic_ubicación = {
    "Capital" : ["Lima", "Santiago de Chile", "Buenos Aires"],
    "Latitud" : [-12.06, -33.4375, -34.599722222222],
    "Longitud" : [-77.0375, -70.65, -58.381944444444]}

# Mostramos el diccionario
print(dic_ubicación)

{'Capital': ['Lima', 'Santiago de Chile', 'Buenos Aires'], 'Latitud': [-12.06, -33.4375, -34.599722222222], 'Longitud': [-77.0375, -70.65, -58.381944444444]}


In [32]:
# Con un ciclo for recorremos la información del diccionario con las coordenadas y lo agregamos en la tabla original para completar la información
# columna es la clave y valores es el valor asociado a la clave
# .items() nos permite recorrer todas las claves y valores del diccionario
# df_base[columna] = valores agrega los valores al DataFrame
for columna, valores in dic_ubicación.items():
    df_base[columna] = valores

# Visualizamos el DataFrame
print(df_base)

        País            Capital    Latitud   Longitud
0       Perú               Lima -12.060000 -77.037500
1      Chile  Santiago de Chile -33.437500 -70.650000
2  Argentina       Buenos Aires -34.599722 -58.381944


In [35]:
# Importamos la librería folium
# import folium

# Creamos el mapa centrado en Sudamérica
mapa_capital = folium.Map(location=[-15.0, -70.0], zoom_start=3, tiles="OpenStreetMap")

# Agregamos un marcador para cada lengua en la familia Quechuan
for _, row in df_base.iterrows():
    folium.Marker(
        location=[row["Latitud"], row["Longitud"]],
        popup=f"{row['País']} \n Capital: {row['Capital']}",  # Concatenamos las columnas
        tooltip=row["Capital"]
    ).add_to(mapa_capital)

# Guardar el mapa en un archivo HTML
mapa_capital.save("mapa_capital.html")

# Mostrar el mapa si estás en un entorno compatible
mapa_capital

Coordenadas por Continente:
- Europa: [50.0, 10.0] (Centro de Europa)

- Oceanía: [-25.0, 135.0] (Centro de Australia)

- Asia: [34.0, 100.0] (Centro de Asia)

- Norteamérica: [37.0, -95.0] (Centro de los Estados Unidos)

- Sudamérica: [-15.0, -60.0] (Centro de Sudamérica)

- África: [0.0, 20.0] (Centro de África)

- Antártida: [-90.0, 0.0] (Centro de la Antártida)
