| **Inicio** | **atr√°s 1** | **Siguiente 3** |
|----------- |-------------- |---------------|
| [üè†](../../README.md) | [‚è™](./1_Numpy.ipynb)| [‚è©](./3_Matplotlib.ipynb)|

# **Pandas**

Pandas es un paquete open-source que nos proporciona una forma sencilla y potente de trabajar con estructuras de datos a trav√©s de m√∫ltiples herramientas para su an√°lisis.

`pip install pandas`

La forma m√°s com√∫n de importar esta librer√≠a es usar el alias `pd`:

In [1]:
import pandas as pd

Si bien en `Numpy` la estructura de datos fundamental es el `ndarray`, en pandas existen dos estructuras de datos sobre las que giran todas las operaciones:

* Series

* Dataframes

## **Series**

Podr√≠amos pensar en una **Serie** como un `ndarray` en el que cada valor tiene asignado una etiqueta (√≠ndice) y adem√°s admite un t√≠tulo (nombre).

### **Creaci√≥n de una serie**

Veamos varios ejemplos de creaci√≥n de serie [1, 2, 3].

**Creaci√≥n de series usando listas:**

In [2]:
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

> **Nota**
>
> El √≠ndice por defecto se crea con n√∫meros enteros positivos empezando desde 0.

**Especificando un √≠ndice personalizando (etiqueta a cada valor):**

In [3]:
pd.Series(range(1, 4), index = ['a', 'b', 'c'])

a    1
b    2
c    3
dtype: int64

**Especificando un diccionario con etiquetas y valores:**

In [4]:
items = {'a' : 1, 'b' : 2, 'c' : 3}
pd.Series(items)

a    1
b    2
c    3
dtype: int64

Todas las series que hemos visto hasta ahora no tienen asignado ning√∫n nombre. Lo podemos hacer usando el par√°metro `name` en la creaci√≥n de la serie:

In [5]:
pd.Series([1, 2, 3], name = 'integers')

0    1
1    2
2    3
Name: integers, dtype: int64

> **Ejercicio**

Cree una serie de pandas con valores enteros en el intervalo [1, 26] y etiquetas 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'. Busque una manera program√°tica (no manual) de hacerlo (recuerde el m√≥dulo string).

In [6]:
import pandas as pd
import string

# Crear una lista de valores enteros en el intervalo [1, 26]
valores_enteros = list(range(1, 27))

# Crear una lista de etiquetas usando las letras may√∫sculas del alfabeto
etiquetas = list(string.ascii_uppercase)

# Crear la serie de pandas
serie = pd.Series(valores_enteros, index=etiquetas)

# Imprimir la serie
print(serie)

A     1
B     2
C     3
D     4
E     5
F     6
G     7
H     8
I     9
J    10
K    11
L    12
M    13
N    14
O    15
P    16
Q    17
R    18
S    19
T    20
U    21
V    22
W    23
X    24
Y    25
Z    26
dtype: int64


### **Atributos de una serie**

Las `series` en pandas contienen gran cantidad de atributos. A continuaci√≥n destacaremos algunos de ellos.

Trabajaremos con datos que contienen el n√∫mero de empleados/as de diferentes empresas tecnol√≥gicas.

In [7]:
data = {'Apple': 147000,
'Samsung': 267937,
'Google': 135301,
'Microsoft': 163000,
'Huawei': 197000,
'Dell': 158000,
'Facebook': 58604,
'Foxconn': 878429,
'Sony': 109700}

In [8]:
data

{'Apple': 147000,
 'Samsung': 267937,
 'Google': 135301,
 'Microsoft': 163000,
 'Huawei': 197000,
 'Dell': 158000,
 'Facebook': 58604,
 'Foxconn': 878429,
 'Sony': 109700}

In [9]:
employees = pd.Series(data, name = 'Tech Employess')

**√çndice de la serie:**

In [10]:
employees.index

Index(['Apple', 'Samsung', 'Google', 'Microsoft', 'Huawei', 'Dell', 'Facebook',
       'Foxconn', 'Sony'],
      dtype='object')

**Valores de la serie:**

In [11]:
employees.values

array([147000, 267937, 135301, 163000, 197000, 158000,  58604, 878429,
       109700])

**Tipo de la serie:**

In [12]:
employees.dtype

dtype('int64')

**Nombre de la serie:**

In [13]:
employees.name

'Tech Employess'

**Memoria ocupada por la serie:**

In [14]:
employees.nbytes

72

**N√∫mero de registros de la serie:**

In [15]:
employees.size

9

### **Selecci√≥n de registros**

La selecci√≥n de los datos se puede realizar desde m√∫ltiples aproximaciones. A continuaci√≥n veremos las posibilidades que nos ofrece pandas para seleccionar/filtrar los registros de una serie.

In [16]:
employees

Apple        147000
Samsung      267937
Google       135301
Microsoft    163000
Huawei       197000
Dell         158000
Facebook      58604
Foxconn      878429
Sony         109700
Name: Tech Employess, dtype: int64

**Selecci√≥n usando indexado num√©rico**

Para acceder a los registros por su posici√≥n (√≠ndice num√©rico) basta usar corchetes como ya se ha visto en cualquier secuencia:

In [17]:
employees[0]

147000

In [18]:
employees[-1]

109700

In [19]:
employees[2:5]

Google       135301
Microsoft    163000
Huawei       197000
Name: Tech Employess, dtype: int64

In [20]:
employees[1:6:2]

Samsung      267937
Microsoft    163000
Dell         158000
Name: Tech Employess, dtype: int64

El atributo `iloc` es un alias (algo m√°s expresivo) que permite realizar las mismas operaciones de indexado (con corchetes) que hemos visto anteriormente:

In [21]:
employees.iloc[1:6:2]

Samsung      267937
Microsoft    163000
Dell         158000
Name: Tech Employess, dtype: int64

> **Truco**
>
> Python, y en este caso pandas, se dicen `O-index` porque sus √≠ndices (posiciones) comienzan en cero.

**Selecc√≠on usando etiquetas**

En el caso de aquellas series que dispongan de un √≠ndice con etiquetas, podemos acceder a sus registros utilizando las mismas:

In [22]:
employees['Apple'] # equivalente a employees.Apple

147000

In [23]:
employees['Apple' : 'Huawei']

Apple        147000
Samsung      267937
Google       135301
Microsoft    163000
Huawei       197000
Name: Tech Employess, dtype: int64

In [24]:
employees['Apple' : 'Huawei' : 2]

Apple     147000
Google    135301
Huawei    197000
Name: Tech Employess, dtype: int64

El atributo `loc` es un alias (algo m√°s expresivo) que permite realizar las mismas operaciones de indexado (con corchetes) que hemos visto anteriormente:

In [25]:
employees.loc['Apple' : 'Huawei' : 2]

Apple     147000
Google    135301
Huawei    197000
Name: Tech Employess, dtype: int64

**Fragmentos de comienzo y fin**

A nivel exploratorio, es bastante c√≥modo acceder a una porci√≥n inicial (o final) de los datos que manejamos. Esto se puede hacer de forma muy sencilla con series:

In [26]:
employees.head(3)

Apple      147000
Samsung    267937
Google     135301
Name: Tech Employess, dtype: int64

In [27]:
employees.tail(3)

Facebook     58604
Foxconn     878429
Sony        109700
Name: Tech Employess, dtype: int64

### **Operaciones con series**

Si tenemos en cuenta que una serie contiene valores en formato `ndarray` podemos concluir que las operaciones sobre arrays son aplicables al caso de las series. Veamos algunos ejemplos de operaciones que podemos aplicar sobre series.

**Operaciones L√≥gicas**

Supongamos que queremos filtrar aquellas empresas que tengan m√°s de 200000 trabajadores/as:

In [28]:
employees > 200_000

Apple        False
Samsung       True
Google       False
Microsoft    False
Huawei       False
Dell         False
Facebook     False
Foxconn       True
Sony         False
Name: Tech Employess, dtype: bool

Hemos obtenido una serie `booleana`. Si queremos aplicar esta `m√°scara`, podemos hacerlo con indexado:

In [29]:
employees[employees > 200_000] # empresas con m√°s de 200k trabajadores/as

Samsung    267937
Foxconn    878429
Name: Tech Employess, dtype: int64

#### **Ordenaci√≥n**

**Ordenaci√≥n de una serie por sus valores:**

In [30]:
employees.sort_values()

Facebook      58604
Sony         109700
Google       135301
Apple        147000
Dell         158000
Microsoft    163000
Huawei       197000
Samsung      267937
Foxconn      878429
Name: Tech Employess, dtype: int64

**Ordenaci√≥n de una serie por su √≠ndice:**

In [31]:
employees.sort_index()

Apple        147000
Dell         158000
Facebook      58604
Foxconn      878429
Google       135301
Huawei       197000
Microsoft    163000
Samsung      267937
Sony         109700
Name: Tech Employess, dtype: int64

> **Truco**
>
> Ambos m√©todos admiten el par√°metro `ascending` para indicar si la ordenaci√≥n es ascendente (True) o descendente (False); y tambi√©n admiten el par√°metro `inplace` para indicar si se quiere modificar los valores de la serie (True) o devolver una nueva ya ordenada (False).

**Contando valores**

Si queremos obtener una **Tabla de frecuencias** podemos contar los valores que existen en nuestra serie:

In [32]:
marks = pd.Series([5, 5, 3, 6, 5, 2, 8, 3, 8, 7, 6])
marks.value_counts()

5    3
3    2
6    2
8    2
2    1
7    1
Name: count, dtype: int64

Vinculado con el caso anterior, podemos obtener el n√∫mero de valores √∫nicos en la serie:

In [33]:
marks.nunique()

6

El m√©todo `count()` devuelve el n√∫mero de valores `no nulos` que contiene la serie:

In [34]:
marks.count() # en este caso es equivalente a marks.size

11

### **Operaciones Aritm√©ticas**

**Operaciones entre series y escalares**

Podemos operar entre series y escalares sin ning√∫n tipo de problema:

In [35]:
employees / 1000

Apple        147.000
Samsung      267.937
Google       135.301
Microsoft    163.000
Huawei       197.000
Dell         158.000
Facebook      58.604
Foxconn      878.429
Sony         109.700
Name: Tech Employess, dtype: float64

**Operaciones entre series**

Para el caso de operaciones entre series, vamos a ejemplificarlo con las dos siguientes:

In [36]:
employees

Apple        147000
Samsung      267937
Google       135301
Microsoft    163000
Huawei       197000
Dell         158000
Facebook      58604
Foxconn      878429
Sony         109700
Name: Tech Employess, dtype: int64

In [38]:
data = {'Apple'  :      274515,
'Samsung' :      200734,
'Google' :      182527,
'Microsoft' :   143015,
'Huawei' :      129184,
'Dell' :         92224,
'Facebook' :     85965,
'Foxconn' :     181945,
'Sony'  :        84893}

In [39]:
revenues = pd.Series(data, name = 'Tech Revenues')

In [40]:
revenues

Apple        274515
Samsung      200734
Google       182527
Microsoft    143015
Huawei       129184
Dell          92224
Facebook      85965
Foxconn      181945
Sony          84893
Name: Tech Revenues, dtype: int64

Supongamos que queremos calcular la ratio de ingresos por trabajador/a:

In [41]:
revenues / employees

Apple        1.867449
Samsung      0.749184
Google       1.349044
Microsoft    0.877393
Huawei       0.655756
Dell         0.583696
Facebook     1.466879
Foxconn      0.207125
Sony         0.773865
dtype: float64

> **Truco**
>
> Tener en cuenta que las operaciones se realizan entre registros que tienen el mismo √≠ndice (etiqueta).

**Funciones Estad√≠sticas**

Existen multitud de funciones estad√≠sticas que podemos aplicar a una serie. Dependiendo del tipo de dato con el que estamos trabajando, ser√°n m√°s √∫tiles unas que otras. Veamos dos funciones a modo de ejemplo:

In [42]:
employees.mean()

234996.77777777778

In [43]:
employees.std()

248027.7840619765

### **M√°ximos y M√≠nimos**

El abanico de posibilidades es muy amplio en cuanto a la b√∫squeda de valores m√°ximos y m√≠nimos en una serie. Veamos lo que nos ofrece pandas a este respecto.

**Obtener valor m√≠nimo/m√°ximo de una serie:**

In [44]:
employees.min()

58604

In [45]:
employees.max()

878429

**Posici√≥n (√≠ndice) del valor m√≠nimo/m√°ximo de una serie:**

In [46]:
employees.argmin() # employees[6] = 58604

6

In [47]:
employees.argmax() # employees[7] = 878429

7

**Etiqueta (√≠ndice) del valor m√≠nimo/m√°ximo de una serie:**

In [48]:
employees.idxmin()

'Facebook'

In [49]:
employees.idxmax()

'Foxconn'

**Obtener los n valores menores/mayores de una serie:**

In [50]:
employees.nsmallest(3)

Facebook     58604
Sony        109700
Google      135301
Name: Tech Employess, dtype: int64

In [51]:
employees.nlargest(3)

Foxconn    878429
Samsung    267937
Huawei     197000
Name: Tech Employess, dtype: int64

### **Exportaci√≥n de series**

Suele ser bastante habitual intercambiar datos en distintos formatos (y aplicaciones). Para ello, pandas nos permite exportar una serie a multitud de formatos. Veamos algunos de ellos:

**Exportaci√≥n de serie a lista:**

In [52]:
employees.to_list()

[147000, 267937, 135301, 163000, 197000, 158000, 58604, 878429, 109700]

**Exportaci√≥n de serie a diccionario:**

In [53]:
employees.to_dict()

{'Apple': 147000,
 'Samsung': 267937,
 'Google': 135301,
 'Microsoft': 163000,
 'Huawei': 197000,
 'Dell': 158000,
 'Facebook': 58604,
 'Foxconn': 878429,
 'Sony': 109700}

**Exportaci√≥n de serie a csv:**

In [54]:
employees.to_csv()

',Tech Employess\nApple,147000\nSamsung,267937\nGoogle,135301\nMicrosoft,163000\nHuawei,197000\nDell,158000\nFacebook,58604\nFoxconn,878429\nSony,109700\n'

**Exportaci√≥n de serie a json:**

In [55]:
employees.to_json()

'{"Apple":147000,"Samsung":267937,"Google":135301,"Microsoft":163000,"Huawei":197000,"Dell":158000,"Facebook":58604,"Foxconn":878429,"Sony":109700}'

**Exportaci√≥n de serie a `pandas.DataFrame`:**

In [56]:
employees.to_frame()

Unnamed: 0,Tech Employess
Apple,147000
Samsung,267937
Google,135301
Microsoft,163000
Huawei,197000
Dell,158000
Facebook,58604
Foxconn,878429
Sony,109700


y muchos otros como: `to_clipboard()`, `to_numpy()`, `to_pickle()`, `to_string()`, `to_xarray()`, `to_excel()`, `to_hdf()`, `to_latex()`, `to_markdown()`, `to_period()`, `to_sql()` o `to_timestamp()`.

## **DataFrames**

Un DataFrame es una estructura tabular compuesta por series. Se trata del tipo de datos fundamental en pandas y sobre el que giran la mayoria de operaciones que podemos realizar.

![DataFrame](../img/dataframes.png "DataFrame")


### **Creaci√≥n de un DataFrame**

Existen m√∫ltiples formas de crear un DataFrame en pandas. Veamos algunas de ellas.

**DataFrame desde Diccionario de Listas**

Cada elemento del diccionario se convierte en una **columna**, donde su clave es el nombre y sus valores se despliegan en `vertical`:

In [57]:
data = {'A' : [1, 2, 3], 'B' : [4, 5, 6]}
pd.DataFrame(data)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


**DataFrame desde lista de Diccionarios**

Cada elemento de la lista se convierte en una **fila**. Las claves de cada diccionario ser√°n los nombres de las columnas y sus valores se despliegan en `horizontal`:

In [58]:
data = [{'A' : 1, 'B' : 2, 'C' : 3}, {'A' : 4, 'B' : 5, 'C' : 6}]
pd.DataFrame(data)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


**DataFrame desde Lista de Listas**

Cada elemento de la lista se convierte en una **fila** y sus valores se despliegan en `horizontal`. Los nombres de las columnas deben pasarse como par√°metro opcional:

In [59]:
data = [[1, 2], [3, 4], [5, 6]]
pd.DataFrame(data, columns=['A', 'B'])

Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6


**DataFrame desde series**

In [60]:
employees

Apple        147000
Samsung      267937
Google       135301
Microsoft    163000
Huawei       197000
Dell         158000
Facebook      58604
Foxconn      878429
Sony         109700
Name: Tech Employess, dtype: int64

In [61]:
revenues

Apple        274515
Samsung      200734
Google       182527
Microsoft    143015
Huawei       129184
Dell          92224
Facebook      85965
Foxconn      181945
Sony          84893
Name: Tech Revenues, dtype: int64

In [62]:
pd.DataFrame({'employees' : employees, 'revenues' : revenues})

Unnamed: 0,employees,revenues
Apple,147000,274515
Samsung,267937,200734
Google,135301,182527
Microsoft,163000,143015
Huawei,197000,129184
Dell,158000,92224
Facebook,58604,85965
Foxconn,878429,181945
Sony,109700,84893


> **Ejercicio**

Cree el siguiente DataFrame en pandas:

| **Island** | **Population** | **Area** |**Province**|
|--- |--- |--- |------|
| Gran Canaria | 855521 | 1560.1 |LPGC|
| Tenerife | 928604 | 2034.38 |SCTF|
|La Palma|83458|708.32|SCTF|
|Lanzarote|155812|845.94|LPGC|
|La Gomera|21678|369.76|SCTF|
|El Hierro|11147|278.71|SCTF|
|Fuerteventura|119732|1659|LPGC|

La superficie (Area) est√° expresada en $km^2$ y las provincias corresponden con LPGC: Las Palmas de Gran Canaria y SCTF: Santa Cruz de Tenerife.

In [69]:
import pandas as pd

data = {
    'Island': ['Gran Canaria', 'Tenerife', 'La Palma', 'Lanzarote', 'La Gomera', 'El Hierro', 'Fuerteventura'],
    'Population': [855521, 928604, 83458, 155812, 21678, 11147, 119732],
    'Area (km^2)': [1560.1, 2034.38, 708.32, 845.94, 369.76, 278.71, 1659],
    'Province': ['LPGC', 'SCTF', 'SCTF', 'LPGC', 'SCTF', 'SCTF', 'LPGC']
}

democan = pd.DataFrame(data)

# Imprimir el DataFrame
democan

Unnamed: 0,Island,Population,Area (km^2),Province
0,Gran Canaria,855521,1560.1,LPGC
1,Tenerife,928604,2034.38,SCTF
2,La Palma,83458,708.32,SCTF
3,Lanzarote,155812,845.94,LPGC
4,La Gomera,21678,369.76,SCTF
5,El Hierro,11147,278.71,SCTF
6,Fuerteventura,119732,1659.0,LPGC


**Gesti√≥n del √çndice**

Cuando creamos un DataFrame, pandas autocompleta el √≠ndice con un valor entero autoincremental comenzando desde cero:

In [65]:
pd.DataFrame({'A' : [1, 2], 'B' : [3, 4]})

Unnamed: 0,A,B
0,1,3
1,2,4


Si queremos convertir alguna columna en el √≠ndice de la tabla, podemos hacerlo as√≠:

In [66]:
stats = pd.DataFrame({'A' : [1, 2], 'B' : [3, 4]})
stats.set_index('A') # columna A como √≠ndice

Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
1,3
2,4


> **Nota**
>
> En el caso anterior se puede observar que el √≠ndice toma un nombre `A`. Esto se puede conseguir directamente asignando un valor a `df.index.name`.

Podemos a√±adir un par√°metro (en la creaci√≥n) para especificar los valores que queremos incluir en el √≠ndice:

In [67]:
pd.DataFrame({'A' : [1, 2], 'B' : [3, 4]}, index = ['R1', 'R2'])

Unnamed: 0,A,B
R1,1,3
R2,2,4


En aquellos DataFrames que disponen de un √≠ndice etiquetado, es posible resetearlo:

In [68]:
pd.DataFrame({'A' : [1, 2], 'B' : [3, 4]}, index = ['R1', 'R2']).reset_index()

Unnamed: 0,index,A,B
0,R1,1,3
1,R2,2,4


> **Ejercicio**

Convierta la columna `Island` en el √≠ndice

In [70]:
democan = democan.set_index('Island')

democan

Unnamed: 0_level_0,Population,Area (km^2),Province
Island,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Gran Canaria,855521,1560.1,LPGC
Tenerife,928604,2034.38,SCTF
La Palma,83458,708.32,SCTF
Lanzarote,155812,845.94,LPGC
La Gomera,21678,369.76,SCTF
El Hierro,11147,278.71,SCTF
Fuerteventura,119732,1659.0,LPGC


**Lectura de Fuente Externas**

Lo m√°s habitual cuando se trabaja en ciencia de datos es tener la informaci√≥n en distintas fuentes auxiliares: bases de datos, ficheros, llamadas remotas a APIs, etc. Pandas nos ofrece una variedad enorme de funciones para cargar datos desde, pr√°cticamente, cualquier origen.

| **Funci√≥n** | **Explicaci√≥n** |
|--- |--- |
| read_pickle | Lectura de datos en formato pickle (Python) |
| read_table | Lectura de ficheros con delimitadores |
|read_csv|Lectura de ficheros .csv|
|read_fwf|Lectura de tablas con l√≠neas de ancho fijo|
|read_clipboard|Lectura de texto del portapapeles|
|read_excel|Lectura de ficheros excel|
|read_json|	Lectura de ficheros json|
|read_html|Lectura de tablas HTML|
|read_xml|Lectura de documentos XML|
|read_hdf|Lectura de objetos pandas almacenados en fichero|
|read_feather|Lectura de objetos en formato ¬´feather¬ª|
|read_parquet|Lectura de objetos en formato ¬´parquet¬ª|
|read_orc|Lectura de objetos en formato ORC|
|read_sas|Lectura de ficheros SAS|
|read_spss|Lectura de ficheros SPSS|
|read_sql_table|Lectura de tabla SQL|
|read_sql_query|Lectura de una consulta SQL|
|read_sql|Wrapper para read_sql_table y read_sql_query|
|read_gbq|Lectura de datos desde Google BigQuery|
|read_stata|Lectura de ficheros Stata|

> **Nota**
>
> Todas estas funciones tienen su equivalente para escribir en los distintos formatos. En vez de `read_` habr√≠a que usar el prefijo `to_`. Por ejemplo: `to_json()` o `to_sql()`

A modo de ilustraci√≥n, vamos a leer el contenido del fichero `tech.csv` que contiene la lista de las mayores empresas tecnol√≥gicas por ingresos totales (en millones de d√≥lares).

Usaremos la funci√≥n `read_csv()` que espera la **coma** como separador de campos. Este fichero est√° delimitado por tabuladores, por lo que especificaremos esta circunstancia mediante el par√°metro `delimiter`. Igualmente, vamos a indicar que se use la primera columna Company como √≠ndice del DataFrame con el par√°metro `index_col`:

In [131]:
df = pd.read_csv('../data/tech.csv', delimiter='\t', index_col='Company')
df

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Samsung Electronics,200734,267937,Suwon,South Korea
Alphabet,182527,135301,California,United States
Foxconn,181945,878429,New Taipei City,Taiwan
Microsoft,143015,163000,Washington,United States
Huawei,129184,197000,Shenzhen,China
Dell Technologies,92224,158000,Texas,United States
Facebook,85965,58604,California,United States
Sony,84893,109700,Tokyo,Japan
Hitachi,82345,350864,Tokyo,Japan


> **Truco**
>
> Se suele usar `df` como nombre para las variables tipo DataFrame.

> **Ejercicio**

Cargue el conjunto de datos `democan` desde `democan.csv` en un DataFrame df indicando que la columna Island es el √≠ndice.

In [74]:
df = pd.read_csv('../data/democan.csv', index_col='Island')
df

Unnamed: 0_level_0,Population,Area,Province
Island,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Gran Canaria,855521,1560.1,LPGC
Tenerife,928604,2034.38,SCTF
La Palma,83458,708.32,SCTF
Lanzarote,155812,845.94,LPGC
La Gomera,21678,369.76,SCTF
El Hierro,11147,278.71,SCTF
Fuerteventura,119732,1659.0,LPGC


### **Caracter√≠sticas de un DataFrame**

**Visualizaci√≥n de los Datos**

Para echar un vistazo a los datos, existen dos funciones muy recurridas:

In [76]:
df.head()

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Samsung Electronics,200734,267937,Suwon,South Korea
Alphabet,182527,135301,California,United States
Foxconn,181945,878429,New Taipei City,Taiwan
Microsoft,143015,163000,Washington,United States


In [77]:
df.tail()

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Tencent,69864,85858,Shenzhen,China
Panasonic,63191,243540,Osaka,Japan
Lenovo,60742,71500,Hong Kong,China
HP Inc.,56639,53000,California,United States
LG Electronics,53625,75000,Seoul,South Korea


> **Truco**
>
> Estas funciones admiten como par√°metro el n√∫mero de registros a visualizar.

**Informaci√≥n sobre los Datos**

Pandas ofrece algunas funciones que proporcionan un cierto resumen de los datos a nivel descriptivo. Veamos algunas de ellas.

informaci√≥n sobre columnas:

In [78]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 17 entries, Apple to LG Electronics
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Revenue    17 non-null     int64 
 1   Employees  17 non-null     int64 
 2   City       17 non-null     object
 3   Country    17 non-null     object
dtypes: int64(2), object(2)
memory usage: 680.0+ bytes


Descripci√≥n de las variables num√©ricas:

In [79]:
df.describe()

Unnamed: 0,Revenue,Employees
count,17.0,17.0
mean,112523.235294,204125.470588
std,63236.957691,198345.912495
min,53625.0,53000.0
25%,69864.0,85858.0
50%,84893.0,147000.0
75%,143015.0,243540.0
max,274515.0,878429.0


Uso de memoria:

In [80]:
df.memory_usage()

Index        136
Revenue      136
Employees    136
City         136
Country      136
dtype: int64

> **Truco**
>
> El resultado de `describe()` es un DataFrame, mientras que el resultado de `memory_usage()` es Series. En cualquier caso, ambas estructuras son accesibles normalmente como tipos de datos Pandas.

### **Atributos de un Dataframe**

Tama√±os y dimensiones:

In [81]:
df.shape # filas por columnas

(17, 4)

In [82]:
df.size # n√∫mero total de datos

68

In [83]:
df.ndim # n√∫mero de dimensiones

2

√çndice, columnas y valores:

In [84]:
df.index

Index(['Apple', 'Samsung Electronics', 'Alphabet', 'Foxconn', 'Microsoft',
       'Huawei', 'Dell Technologies', 'Facebook', 'Sony', 'Hitachi', 'Intel',
       'IBM', 'Tencent', 'Panasonic', 'Lenovo', 'HP Inc.', 'LG Electronics'],
      dtype='object', name='Company')

In [85]:
df.columns

Index(['Revenue', 'Employees', 'City', 'Country'], dtype='object')

In [86]:
df.values

array([[274515, 147000, 'California', 'United States'],
       [200734, 267937, 'Suwon', 'South Korea'],
       [182527, 135301, 'California', 'United States'],
       [181945, 878429, 'New Taipei City', 'Taiwan'],
       [143015, 163000, 'Washington', 'United States'],
       [129184, 197000, 'Shenzhen', 'China'],
       [92224, 158000, 'Texas', 'United States'],
       [85965, 58604, 'California', 'United States'],
       [84893, 109700, 'Tokyo', 'Japan'],
       [82345, 350864, 'Tokyo', 'Japan'],
       [77867, 110600, 'California', 'United States'],
       [73620, 364800, 'New York', 'United States'],
       [69864, 85858, 'Shenzhen', 'China'],
       [63191, 243540, 'Osaka', 'Japan'],
       [60742, 71500, 'Hong Kong', 'China'],
       [56639, 53000, 'California', 'United States'],
       [53625, 75000, 'Seoul', 'South Korea']], dtype=object)

### **Acceso a un DataFrame**

Es fundamental conocer la estructura de un DataFrame para su adecuado manejo:

![Estructura Dataframe](../img/estructurasdataframe.png "Estructura DataFrame")


Para todos los ejemplos subsiguientes continuamos utilizando el conjunto de datos de empresas tecnol√≥gicas cargado previamente:

In [87]:
df

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Samsung Electronics,200734,267937,Suwon,South Korea
Alphabet,182527,135301,California,United States
Foxconn,181945,878429,New Taipei City,Taiwan
Microsoft,143015,163000,Washington,United States
Huawei,129184,197000,Shenzhen,China
Dell Technologies,92224,158000,Texas,United States
Facebook,85965,58604,California,United States
Sony,84893,109700,Tokyo,Japan
Hitachi,82345,350864,Tokyo,Japan


**Acceso a Filas**

Si queremos acceder a las filas de un conjunto de datos mediante la posici√≥n (√≠ndice num√©rico) del registro usando el atributo `iloc`:

In [88]:
df.iloc[0]

Revenue             274515
Employees           147000
City            California
Country      United States
Name: Apple, dtype: object

In [89]:
df.iloc[-1]

Revenue            53625
Employees          75000
City               Seoul
Country      South Korea
Name: LG Electronics, dtype: object

In [90]:
df.iloc[3:5]

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Foxconn,181945,878429,New Taipei City,Taiwan
Microsoft,143015,163000,Washington,United States


In [91]:
df.iloc[::5] # salta de 5 en 5 filas

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Huawei,129184,197000,Shenzhen,China
Intel,77867,110600,California,United States
HP Inc.,56639,53000,California,United States


> **Nota**
>
> El acceso a un registro individual nos devuelve una serie.

Si queremos acceder a las filas de un conjunto de datos mediante la etiqueta del registro usamos el atributo `loc`:

In [92]:
df.loc['Apple']

Revenue             274515
Employees           147000
City            California
Country      United States
Name: Apple, dtype: object

In [93]:
df.loc['IBM']

Revenue              73620
Employees           364800
City              New York
Country      United States
Name: IBM, dtype: object

In [94]:
df.loc['Sony':'Intel']

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Sony,84893,109700,Tokyo,Japan
Hitachi,82345,350864,Tokyo,Japan
Intel,77867,110600,California,United States


> **Nota**
>
> El acceso a un registro individual nos devuelve una serie.

**Acceso a Columnas**

El acceso a columnas se realiza directamente utilizando corchetes, como si fuera un diccionario:

In [95]:
df['Revenue'] # equivalente a df.Revenue

Company
Apple                  274515
Samsung Electronics    200734
Alphabet               182527
Foxconn                181945
Microsoft              143015
Huawei                 129184
Dell Technologies       92224
Facebook                85965
Sony                    84893
Hitachi                 82345
Intel                   77867
IBM                     73620
Tencent                 69864
Panasonic               63191
Lenovo                  60742
HP Inc.                 56639
LG Electronics          53625
Name: Revenue, dtype: int64

> **Nota**
>
> El acceso a una columna individual nos devuelve una serie.

Se pueden seleccionar varias columnas a la vez pasando una lista:

In [96]:
df[['Employees', 'City']].head()

Unnamed: 0_level_0,Employees,City
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
Apple,147000,California
Samsung Electronics,267937,Suwon
Alphabet,135301,California
Foxconn,878429,New Taipei City
Microsoft,163000,Washington


Esta misma sintaxis permite la reordenaci√≥n de las columnas de un DataFrame, si asignamos el resultado a la misma (u otra) variable:

In [98]:
df_reordered = df[['City', 'Country', 'Revenue', 'Employees']]
df_reordered.head()

Unnamed: 0_level_0,City,Country,Revenue,Employees
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,California,United States,274515,147000
Samsung Electronics,Suwon,South Korea,200734,267937
Alphabet,California,United States,182527,135301
Foxconn,New Taipei City,Taiwan,181945,878429
Microsoft,Washington,United States,143015,163000


**Acceso a Filas y Columnas**

Si mezclamos los dos acceso anteriores podemos seleccionar datos de forma muy precisa. Como siempre, partimos del dataset de empresas tecnol√≥gicas:

In [99]:
df.head()

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Samsung Electronics,200734,267937,Suwon,South Korea
Alphabet,182527,135301,California,United States
Foxconn,181945,878429,New Taipei City,Taiwan
Microsoft,143015,163000,Washington,United States


Acceso al **primer valor del n√∫mero de empleados/as**. Formas equivalentes de hacerlo:

In [100]:
df.iloc[0, 0]

274515

In [101]:
df.loc['Apple', 'Revenue']

274515

Acceso a **Ciudad y Pa√≠s de las empresas Sony, Panasonic y Lenovo**:

In [102]:
df.loc[['Sony', 'Panasonic', 'Lenovo'], ['City', 'Country']]

Unnamed: 0_level_0,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
Sony,Tokyo,Japan
Panasonic,Osaka,Japan
Lenovo,Hong Kong,China


Acceso a la **√öltima columna** del DataFrame:

In [103]:
df.iloc[:, -1]

Company
Apple                  United States
Samsung Electronics      South Korea
Alphabet               United States
Foxconn                       Taiwan
Microsoft              United States
Huawei                         China
Dell Technologies      United States
Facebook               United States
Sony                           Japan
Hitachi                        Japan
Intel                  United States
IBM                    United States
Tencent                        China
Panasonic                      Japan
Lenovo                         China
HP Inc.                United States
LG Electronics           South Korea
Name: Country, dtype: object

Acceso a las **tres √∫ltimas filas(empresas) y a las dos primeras columnas**:

In [104]:
df.iloc[-3:, :2]

Unnamed: 0_level_0,Revenue,Employees
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
Lenovo,60742,71500
HP Inc.,56639,53000
LG Electronics,53625,75000


Acceso a **Las filas que van desde Apple a Huawei y a las columnas que van desde Revenue hasta City**:

In [105]:
df.loc['Apple' : 'Huawei', 'Revenue' : 'City']

Unnamed: 0_level_0,Revenue,Employees,City
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Apple,274515,147000,California
Samsung Electronics,200734,267937,Suwon
Alphabet,182527,135301,California
Foxconn,181945,878429,New Taipei City
Microsoft,143015,163000,Washington
Huawei,129184,197000,Shenzhen


> **Truco**
>
> Es posible usar `slicing` (troceado) en el acceso a registros y columnas.

**Selecci√≥n condicional**

Es posible aplicar ciertas condiciones en la selecci√≥n de los datos para obtener el subconjunto que estemos buscando. Veremos distintas aproximaciones a esta t√©cnica.

Supongamos que queremos seleccionar aquellas empresas con base en Estados Unidos. Si aplicamos la condici√≥n sobre la columna obtendremos una serie de tipo booleano en la que se indica para qu√© registros se cumple la condici√≥n (incluyendo el √≠ndice):

In [106]:
df['Country'] == 'United States'

Company
Apple                   True
Samsung Electronics    False
Alphabet                True
Foxconn                False
Microsoft               True
Huawei                 False
Dell Technologies       True
Facebook                True
Sony                   False
Hitachi                False
Intel                   True
IBM                     True
Tencent                False
Panasonic              False
Lenovo                 False
HP Inc.                 True
LG Electronics         False
Name: Country, dtype: bool

Si aplicamos esta m√°scara al conjunto original de datos, obtendremos las empresas que estamos buscando:

In [107]:
df[df['Country'] == 'United States']

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Alphabet,182527,135301,California,United States
Microsoft,143015,163000,Washington,United States
Dell Technologies,92224,158000,Texas,United States
Facebook,85965,58604,California,United States
Intel,77867,110600,California,United States
IBM,73620,364800,New York,United States
HP Inc.,56639,53000,California,United States


Tambi√©n es posible aplicar condiciones compuestas. Supongamos que necesitamos selecionar aquellas **empresas con m√°s de 100000 millones de d√≥lares de ingresos y m√°s de 100000 empleados/as**:

In [108]:
revenue_condition = df['Revenue'] > 100_000
employees_condition = df['Employees'] > 100_000
df[revenue_condition & employees_condition]

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Samsung Electronics,200734,267937,Suwon,South Korea
Alphabet,182527,135301,California,United States
Foxconn,181945,878429,New Taipei City,Taiwan
Microsoft,143015,163000,Washington,United States
Huawei,129184,197000,Shenzhen,China


Los operadores l√≥gicos que se pueden utilizar para combinar condiciones de selecci√≥n son los siguientes:

| **Operador** | **Significado** |
|--- |--- |
| | | ¬´or¬ª l√≥gico |
| & | ¬´and¬ª l√≥gico |
|~|¬´not¬ª l√≥gico|
|^|¬´xor¬ª l√≥gico|

Imaginemos ahora que estamos buscando aquellas **empresa establecidas en California o Tokyo**. Una posible aproximaci√≥n ser√≠a utilizar una condici√≥n compuesta, pero existe la funci√≥n `isin()` que nos permite comprobar si un valor est√° dentro de una lista de opciones:

In [109]:
mask = df['City'].isin(['California', 'Tokyo'])
df[mask]

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Alphabet,182527,135301,California,United States
Facebook,85965,58604,California,United States
Sony,84893,109700,Tokyo,Japan
Hitachi,82345,350864,Tokyo,Japan
Intel,77867,110600,California,United States
HP Inc.,56639,53000,California,United States


> **Ejercicio**

1. Para obtener las islas "El Hierro" y "La Gomera" con `.loc`:

In [110]:
subset1 = democan.loc[['El Hierro', 'La Gomera']]
print(subset1)

           Population  Area (km^2) Province
Island                                     
El Hierro       11147       278.71     SCTF
La Gomera       21678       369.76     SCTF


2. Para obtener la columna 'Province' de las islas especificadas con `.loc`:

In [111]:
subset2 = democan.loc[['Gran Canaria', 'Tenerife', 'La Palma', 'Lanzarote', 'La Gomera', 'El Hierro', 'Fuerteventura'], 'Province']
print(subset2)

Island
Gran Canaria     LPGC
Tenerife         SCTF
La Palma         SCTF
Lanzarote        LPGC
La Gomera        SCTF
El Hierro        SCTF
Fuerteventura    LPGC
Name: Province, dtype: object


3. Para obtener la columna 'Area' de las islas especificadas con `.iloc` (usando √≠ndices enteros en lugar de etiquetas):

In [116]:
ds3 = democan.iloc[::2, 1]
ds3

Island
Gran Canaria     1560.10
La Palma          708.32
La Gomera         369.76
Fuerteventura    1659.00
Name: Area (km^2), dtype: float64

**Seleci√≥n Usando Query**

Pandas provee una alternativa para la selecci√≥n condicional de registros a trav√©s de la funci√≥n `query()`. Admite una sintaxis de consulta mediante operadores de comparaci√≥n.

Veamos las mismas consultas de ejemplo que para el apartado anterior:

In [118]:
df.query('Country == "United States"')

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Alphabet,182527,135301,California,United States
Microsoft,143015,163000,Washington,United States
Dell Technologies,92224,158000,Texas,United States
Facebook,85965,58604,California,United States
Intel,77867,110600,California,United States
IBM,73620,364800,New York,United States
HP Inc.,56639,53000,California,United States


In [119]:
df.query('Revenue > 100_000 & Employees > 100_000')

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Samsung Electronics,200734,267937,Suwon,South Korea
Alphabet,182527,135301,California,United States
Foxconn,181945,878429,New Taipei City,Taiwan
Microsoft,143015,163000,Washington,United States
Huawei,129184,197000,Shenzhen,China


In [120]:
df.query('City in ["California", "Tokyo"]')

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Alphabet,182527,135301,California,United States
Facebook,85965,58604,California,United States
Sony,84893,109700,Tokyo,Japan
Hitachi,82345,350864,Tokyo,Japan
Intel,77867,110600,California,United States
HP Inc.,56639,53000,California,United States


> **Truco**
>
> Si los nombres de columna contienen espacios, se puede hacer referencias a ellas con comillas invertidas. Por ejemplo: `Total Stock`.

**Comparativa en Consultas**

Hemos visto dos m√©todos para realizar consultas (o filtrado) en un DataFrame: usando seleci√≥n booleana con corchetes y usando la funci√≥n `query`. ¬øAmbos m√©todos son igual de eficientes en t√©rminos de rendimiento?

Haremos una comparativa muy simple para tener, al menos, una idea de sus √≥rdenes de magnitud. En primer lugar creamos un DataFrame con 3 columnas y 1 mill√≥n de valores aleatorios enteros en cada una de ellas:

In [121]:
import numpy as np

In [122]:
size = 1_000_000

data = {
  'A' : np.random.randint(1, 100, size = size),
  'B' : np.random.randint(1, 100, size = size),
  'C' : np.random.randint(1, 100, size = size)
}
df = pd.DataFrame(data)
df.shape

(1000000, 3)

Ahora realizaremos la misma consulta sobre el DataFrame aplicando los m√©todos ya vistos:

In [123]:
%timeit df[(df['A'] > 50) & (df['B'] < 50)]

69.3 ms ¬± 18.5 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [124]:
%timeit df.query('A > 50 & B < 50')

116 ms ¬± 25.5 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


Sin que esto sea en modo alguna concluyente. da la sensaci√≥n de que `query()` a√±ade un cierto overhead al filtrado y aumentan los tiempos de c√≥mputo.

### **Modificaci√≥n de un DataFrame**

**Modificando Valores Existentes**

Partiendo del acceso a los datos que ya hemos visto, podemos asignar valores sin mayor dificultad.

Pero antes de modificar el DataFrame original, vamos a hacer una copia del mismo:

In [132]:
df_mod = df.copy()

In [133]:
df_mod.equals(df) # comprueba que todos los valores del DataFrame son iguales

True

Supongamos que hemos cometido un **error en el n√∫mero de empleados/as de Apple** y queremos corregirlo:

In [134]:
df_mod.head(1)

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States


In [135]:
df_mod.loc['Apple', 'Employees'] = 137000

In [136]:
df_mod.head(1)

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,137000,California,United States


Supongamos que no se hab√≠a contemplado una **subida del 20% en los ingresos** y queremos reflejar:

In [137]:
df_mod['Revenue'] *= 1.20

In [138]:
df_mod['Revenue'].head()

Company
Apple                  329418.0
Samsung Electronics    240880.8
Alphabet               219032.4
Foxconn                218334.0
Microsoft              171618.0
Name: Revenue, dtype: float64

Supongamos que todas las empresas tecnol√≥gicas **mueven su sede a Vigo (Espa√±a)** y queremos reflejarlo:

In [140]:
df_mod['City'] = 'Vigo'
df_mod['Country'] = 'Spain'
df_mod.head()

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,329418.0,137000,Vigo,Spain
Samsung Electronics,240880.8,267937,Vigo,Spain
Alphabet,219032.4,135301,Vigo,Spain
Foxconn,218334.0,878429,Vigo,Spain
Microsoft,171618.0,163000,Vigo,Spain


> **Nota**
>
> En este √∫ltimo ejemplo se produce un broadcast o difusi√≥n del valor escalar a todos los registros del dataset.

**Reemplazo de Valores**

Hay una funci√≥n muy importante en lo relativo a la modificaci√≥n de valores. Se trata de `replace()` y admite una amplia variedad de par√°metros. Se puede usar tanto para tipos num+ericos como textuales.

Uno de los usos m√°s habituales es la recodificaci√≥n. Supongamos que queremos recodificar los pa√≠ses en ISO3166 Alpha-3 para el DataFrame de empress tecnol√≥gicas:

In [141]:
iso3166 = {
    'United States': 'USA',
    'South Korea': 'KOR',
    'Taiwan': 'TWN',
    'China': 'CHN',
    'Japan': 'JPN'
}

In [142]:
df['Country'].replace(iso3166)

Company
Apple                  USA
Samsung Electronics    KOR
Alphabet               USA
Foxconn                TWN
Microsoft              USA
Huawei                 CHN
Dell Technologies      USA
Facebook               USA
Sony                   JPN
Hitachi                JPN
Intel                  USA
IBM                    USA
Tencent                CHN
Panasonic              JPN
Lenovo                 CHN
HP Inc.                USA
LG Electronics         KOR
Name: Country, dtype: object

> **Ejercicio**

Recodifique la columna Province del ¬´dataset¬ª democan de tal manera que aparezcan las provincias con el texto completo: Santa Cruz de Tenerife y Las Palmas de Gran Canaria.

In [143]:
# Recodificar la columna "Province"
democan['Province'] = democan['Province'].replace({'SCTF': 'Santa Cruz de Tenerife', 'LPGC': 'Las Palmas de Gran Canaria'})

# Imprimir el DataFrame actualizado
print(democan)

               Population  Area (km^2)                    Province
Island                                                            
Gran Canaria       855521      1560.10  Las Palmas de Gran Canaria
Tenerife           928604      2034.38      Santa Cruz de Tenerife
La Palma            83458       708.32      Santa Cruz de Tenerife
Lanzarote          155812       845.94  Las Palmas de Gran Canaria
La Gomera           21678       369.76      Santa Cruz de Tenerife
El Hierro           11147       278.71      Santa Cruz de Tenerife
Fuerteventura      119732      1659.00  Las Palmas de Gran Canaria


**Insertando y Borrando Filas**

Podemos insertar datos en un DataFrame como filas o como columnas.

Supongamos que queremos incluir una nueva empresa Cisco:

In [145]:
cisco = pd.Series(data=[51_904, 75_900, 'California', 'United States'],
                  index=df_mod.columns, name='Cisco')
cisco

Revenue              51904
Employees            75900
City            California
Country      United States
Name: Cisco, dtype: object

In [153]:
df_mod = pd.concat([df_mod, cisco.to_frame().T], ignore_index=True)

### **UNIENDO DATAFRAMES**

En esta secci√≥n veremos dos t√©cnicas: Una de ellas ¬´fusiona¬ª dos DataFrames mientras que la otra los ¬´concatena¬ª.

**FUSI√ìN DE DATAFRAMES**

Pandas proporciona la funci√≥n `merge()` para mezclar dos DataFrames. El comportamiento de la funci√≥n viene definido, entre otros, por el par√°metro how que establece el m√©todo de ¬´fusi√≥n¬ª:

![DataFrame](../img/1.png "DataFrame")
![DataFrame](../img/2.png "DataFrame")

En principio, si no establecemos ning√∫n argumento adicional, ¬´merge¬ª tratar√° de vincular aquellas filas con columnas hom√≥nimas en ambos conjuntos de datos. Si queremos especificar que la mezcla se dirija por determinadas columnas, tenemos a disposici√≥n los par√°metros on, `left_on` o `right_on`.

**CONCATENACI√ìN DE DATAFRAMES**

Para concatenar dos DataFrames podemos utilizar la funci√≥n `concat()` que permite a√±adir las filas de un DataFrame a otro, o bien a√±adir las columnas de un DataFrame a otro.

![DataFrame](../img/3.png "DataFrame")

Si queremos ¬´reindexar¬ª el DataFrame concatenado, la funci√≥n `concat()` admite un par√°metro `ignore_index` que podemos poner a True. De esta forma tendremos un ¬´dataset¬ª resultante con √≠ndice desde 0 hasta N.

| **Inicio** | **atr√°s 1** | **Siguiente 3** |
|----------- |-------------- |---------------|
| [üè†](../../README.md) | [‚è™](./1_Numpy.ipynb)| [‚è©](./3_Matplotlib.ipynb)|