### Módulo: Introducción a Python
# **Clase 3: Introducción a Pandas y el manejo de datos**

Hemos navegado en el uso (muy) básico de Python. Esto nos entrega unas herramientas para manejar algunos procesos y lograr algunos objetivos en programación. Sin embargo, la Ciancia de Datos se centra, específicamente, en los datos. Por tanto, debemos sobre cómo Python puede manejar datos.

Para ello, se utiliza un paquete llamado `pandas`. Hay algunas alternativas, como `polar` o el uso de estructuras básicas de Python, pero su uso es menos extendido en la comunidad y aún falta desarrollo en los nuevos paquetes. En ese sentido, utilizaremos `pandas` como la herramienta inicial.

¡Vamos por ello!

# 1. Marcos de datos (Dataframes)

Los Marcos de Datos (Dataframe) son estructuras que guardar datos en un arreglo bidimensional de información etiquetada. Son similares a los `arrays`, `series` y `matrix`, pero difieren en la facilidad de visualización y manipulación.

En sí misma, puede guardar información de un solo tipo de datos o de varios tipos de datos: numéricos, strings, booleanos, entre otros. Ello le da una capacidad excelente de manipulación.

La estructura básica es la siguiente:

\        |Columns: | C1 | C2 | ... | Cn
---------|---------|----|----|-----|------
**Index:** |         |    |    |     |     
F1       |         |    |    |     |   
F2       |         |    |    |     |   
...      |         |    |    |     |  
Fm       |         |    |    |     |   

El paquete más fácil para la visualización y manipulación de los dataframes es `Pandas`. Esta librería tiene múltiples métodos para la manipulación de datos. En Python es casi considerado la Santa Herramienta de la Ciencia de Datos.

In [1]:
#!pip install pandas




[notice] A new release of pip is available: 23.1.2 -> 23.2.1
[notice] To update, run: C:\Users\juanm\AppData\Local\Programs\Python\Python311\python.exe -m pip install --upgrade pip


In [1]:
import pandas as pd

## 1.1. Creación de un dataframe desde cero

Los dataframes se pueden crear fácilmente con el método de pandas `pd.dataframe()`. Lo más común es que se cree a partir de una estructura `array`, similar a las matrices.

In [12]:
# Importando otros paquetes
import pandas as pd
import numpy as np 

# Creando el array
data = np.array([['','Col1','Col2'],
                ['Row1',1,2],
                ['Row2',3,4]])

# Creando el dataframe
pd.DataFrame(data=data[1:,1:],
                  index=data[1:,0],
                  columns=data[0,1:])

Unnamed: 0,Col1,Col2
Row1,1,2
Row2,3,4


No obstante, hay diferentes formas de crear un Dataframe:

In [13]:
# Dataframe con un array de dos dimensiones
print("Dataframe con array")
my_2darray = np.array([[1, 2, 3], [4, 5, 6]])
print(pd.DataFrame(data= my_2darray))
print("\n")

# Dataframe con un diccionario
print("Dataframe con diccionario")
my_dict = {1: ['1', '3'], 2: ['1', '2'], 3: ['2', '4']}
print(pd.DataFrame(data= my_dict,
                  columns = my_dict.keys()))
print("\n")

# Dataframe con una serie
print("Dataframe con una serie")
my_series = pd.Series({"Belgium":"Brussels", "India":"New Delhi", "United Kingdom":"London", "United States":"Washington"})
print(pd.DataFrame(data= my_series))

Dataframe con array
   0  1  2
0  1  2  3
1  4  5  6


Dataframe con diccionario
   1  2  3
0  1  1  2
1  3  2  4


Dataframe con una serie
                         0
Belgium           Brussels
India            New Delhi
United Kingdom      London
United States   Washington


Todo esto es un poco complicado y poco útil, ya que, por lo general, no necesitamos crear dataframes desde cero. Comúnmente, utilizaremos datos que se han creado con otras herramientas, tales como `Excel`, `SQL`, `ArcGIS`, entre otras. Dichos instrumentos nos permiten generar archivos `.xlsx`, `.txt`, `rds`, entre otros que nos permiten almacenar datos de manera eficiente.

Teniendo en cuenta lo anterior, resulta importante entender cómo importar y usar estos datos. ¡Vamos con ello!

## 8.2. Importe de datos

Pandas permite importar datos de una gran multitud de tipos de archivos, incluyendo archivos `xlsx` o `xls` (`read_excel`), `csv` o `txt` (`read_csv`), `dta` (`read_stata`), entre otros. Incluso, existe la posibilidad de obtener datos directamente de páginas web, servicios Cloud y de procesadores de datos como MySQL, SQLite, entre otras opciones. 

Esta va a ser una importante función para nosotros, ya que normalmente no vamos a crear las bases de datos, sino que vamos a utilizar bases de datos recolectadas por otras personas, entidades o departamentos/secciones de nuestra empresa o entidad.

Para importar una base de datos, se tiene una estructura similar a la siguiente:

In [2]:
import pandas as pd

pd.read_csv("disney-characters.csv")

Unnamed: 0,movie_title,release_date,hero,villian,song
0,\nSnow White and the Seven Dwarfs,"December 21, 1937",Snow White,Evil Queen,Some Day My Prince Will Come
1,\nPinocchio,"February 7, 1940",Pinocchio,Stromboli,When You Wish upon a Star
2,\nFantasia,"November 13, 1940",,Chernabog,
3,Dumbo,"October 23, 1941",Dumbo,Ringmaster,Baby Mine
4,\nBambi,"August 13, 1942",Bambi,Hunter,Love Is a Song
5,\nSaludos Amigos,"February 6, 1943",Donald Duck,,Saludos Amigos\n
6,The Three Caballeros,"February 3, 1945",Donald Duck,,
7,\nMake Mine Music,"April 20, 1946",,,
8,\nFun and Fancy Free,"September 27, 1947",Mickey Mouse,Willie the Giant,
9,\nMelody Time,"May 27, 1948",,,Little Toot


> **Nota:** pueden obtener bases de datos de páginas como Kaggle.com.

Sin embargo, lo anterior solo nos permite mostrar la base de datos, pero no la hemos guardado en una variable para ser manipulada. Por ello, se pueden guardar en objetos para ser llamados más adelante:

In [3]:
data = pd.read_csv("disney_revenue_1991-2016.csv")

No muestra directamente la base de datos porque guardó el objeto solamente. Para mostrarlo, se debe llamar el objeto o utilizar alguno de sus métodos de visualización. Para ello se puede llamar la base de datos completa con el nombre de la variable en la que se guardó la base de datos (en este caso `data`), con el método `head()` que muestra las primeras filas o el método `tail()` que muestra las últimas filas.

Revisemos cómo funciona:

In [6]:
# Data variable name method
data

Unnamed: 0,Year,Studio Entertainment[NI 1],Disney Consumer Products[NI 2],Disney Interactive[NI 3][Rev 1],Walt Disney Parks and Resorts,Disney Media Networks,Total
0,1991,2593.0,724.0,,2794.0,,6111
1,1992,3115.0,1081.0,,3306.0,,7502
2,1993,3673.4,1415.1,,3440.7,,8529
3,1994,4793.0,1798.2,,3463.6,359.0,10414
4,1995,6001.5,2150.0,,3959.8,414.0,12525
5,1996,,,,4502.0,4142.0,18739
6,1997,6981.0,3782.0,174.0,5014.0,6522.0,22473
7,1998,6849.0,3193.0,260.0,5532.0,7142.0,22976
8,1999,6548.0,3030.0,206.0,6106.0,7512.0,23402
9,2000,5994.0,2602.0,368.0,6803.0,9615.0,25402


In [4]:
# Head method
data.head(10)

Unnamed: 0,Year,Studio Entertainment[NI 1],Disney Consumer Products[NI 2],Disney Interactive[NI 3][Rev 1],Walt Disney Parks and Resorts,Disney Media Networks,Total
0,1991,2593.0,724.0,,2794.0,,6111
1,1992,3115.0,1081.0,,3306.0,,7502
2,1993,3673.4,1415.1,,3440.7,,8529
3,1994,4793.0,1798.2,,3463.6,359.0,10414
4,1995,6001.5,2150.0,,3959.8,414.0,12525
5,1996,,,,4502.0,4142.0,18739
6,1997,6981.0,3782.0,174.0,5014.0,6522.0,22473
7,1998,6849.0,3193.0,260.0,5532.0,7142.0,22976
8,1999,6548.0,3030.0,206.0,6106.0,7512.0,23402
9,2000,5994.0,2602.0,368.0,6803.0,9615.0,25402


In [5]:
# Tail method
data.tail(10)

Unnamed: 0,Year,Studio Entertainment[NI 1],Disney Consumer Products[NI 2],Disney Interactive[NI 3][Rev 1],Walt Disney Parks and Resorts,Disney Media Networks,Total
16,2007,7491.0,2347.0,,10626.0,15046,35510
17,2008,7348.0,2415.0,719.0,11504.0,15857,37843
18,2009,6136.0,2425.0,712.0,10667.0,16209,36149
19,2010,6701.0,2678.0,761.0,10761.0,17162,38063
20,2011,6351.0,3049.0,982.0,11797.0,18714,40893
21,2012,5825.0,3252.0,845.0,12920.0,19436,42278
22,2013,5979.0,3555.0,1064.0,14087.0,20356,45041
23,2014,7278.0,3985.0,1299.0,15099.0,21152,48813
24,2015,7366.0,4499.0,1174.0,16162.0,23264,52465
25,2016,9441.0,,,16974.0,23689,55632


### 8.2.1. Ejercicios

#### 8.2.1.1. Creación de una pequeña base de datos

Cree un pequeño diccionario con dos filas (nombre y apellido) y con tres columnas (sus datos junto con datos de otras dos personas).

#### 8.2.1.2. Importe de datos

Importe los datos de los nombres de los directores de las películas de Disney.

## 8.3. Operaciones fundamentales de dataframes

### 8.3.1. Selección de datos

En ocasiones, queremos seleccionar una columna o grupos de columnas en específico, una fila o grupo de filas en específico o un dato en específico. En ese caso, se debe comprender cómo funciona la sleección de datos para Python.

In [6]:
data = pd.read_csv("disney_movies_total_gross.csv")
data

Unnamed: 0,movie_title,release_date,genre,MPAA_rating,total_gross,inflation_adjusted_gross
0,Snow White and the Seven Dwarfs,"Dec 21, 1937",Musical,G,"$184,925,485","$5,228,953,251"
1,Pinocchio,"Feb 9, 1940",Adventure,G,"$84,300,000","$2,188,229,052"
2,Fantasia,"Nov 13, 1940",Musical,G,"$83,320,000","$2,187,090,808"
3,Song of the South,"Nov 12, 1946",Adventure,G,"$65,000,000","$1,078,510,579"
4,Cinderella,"Feb 15, 1950",Drama,G,"$85,000,000","$920,608,730"
...,...,...,...,...,...,...
574,The Light Between Oceans,"Sep 2, 2016",Drama,PG-13,"$12,545,979","$12,545,979"
575,Queen of Katwe,"Sep 23, 2016",Drama,PG,"$8,874,389","$8,874,389"
576,Doctor Strange,"Nov 4, 2016",Adventure,PG-13,"$232,532,923","$232,532,923"
577,Moana,"Nov 23, 2016",Adventure,PG,"$246,082,029","$246,082,029"


#### 8.3.1.1. Selección de columnas

Las columnas se pueden seleccionar de dos formas. La primera de ellas es estipulando el nombre de la columna o de las columnas de la siguiente manera:

        df_name[<col_name>]

Veamos un ejemplo al respecto:

In [20]:
# Estipulando el nombre de la columna
data["movie_title"]

0      Snow White and the Seven Dwarfs
1                            Pinocchio
2                             Fantasia
3                    Song of the South
4                           Cinderella
                    ...               
574           The Light Between Oceans
575                     Queen of Katwe
576                     Doctor Strange
577                              Moana
578       Rogue One: A Star Wars Story
Name: movie_title, Length: 579, dtype: object

Para escoger varias columnas se debe incluir una **lista** dentro de la selección del dataframe:

        df_name[[<col_name1>, <col_name2>, ...]]

In [34]:
# Estipulando los nombres de la columnas
data[["movie_title", "release_date"]]

Unnamed: 0,movie_title,release_date
0,Snow White and the Seven Dwarfs,"Dec 21, 1937"
1,Pinocchio,"Feb 9, 1940"
2,Fantasia,"Nov 13, 1940"
3,Song of the South,"Nov 12, 1946"
4,Cinderella,"Feb 15, 1950"
...,...,...
574,The Light Between Oceans,"Sep 2, 2016"
575,Queen of Katwe,"Sep 23, 2016"
576,Doctor Strange,"Nov 4, 2016"
577,Moana,"Nov 23, 2016"


El segundo método consiste en estipular la posición de la columna de la siguiente manera:

        df_name.iloc[:, <col_index>]

En términos de Python, la primera parte antes de la coma elige las filas y la segunda parte elige las columnas. Así mismo, los dos puntos (`:`) indica que se debe seleccionar todo. En ese sentido, la estructura acabada de mostrar elige todas las filas de la columna que vamos a estipular. Por ejemplo, para seleccionar la columna `release_date` (posición 2, índice 1), debemos correr el siguiente código:

In [35]:
# Estipulando la posición de la columna
data.iloc[:,1]

0      Dec 21, 1937
1       Feb 9, 1940
2      Nov 13, 1940
3      Nov 12, 1946
4      Feb 15, 1950
           ...     
574     Sep 2, 2016
575    Sep 23, 2016
576     Nov 4, 2016
577    Nov 23, 2016
578    Dec 16, 2016
Name: release_date, Length: 579, dtype: object

>
> **Nota:** el método `iloc` permite escoger las columnas por medio de los índices. Sin ello, genera un error.
>
> **¡Cuidado!** Esto es diferente al método `loc`, el cual selecciona por la _posición_ de la columna.
>

Ahora, para seleccionar múltiples columnas, podemos utilizar los dos puntos (`:`) para explicarle qué columnas deseamos obtener a Python:

        df_name[:, <index_first_col> : <index_last_col> + 1]

Para seleccionar de la tercera columna (índice 2) hasta la cuarta (índice 3), se debe seleccionar desde 2 hasta 4, ya que selecciona una anterior a la estipulada:

In [36]:
# Estipulando el índice de la columna
data.iloc[:,2:4]

Unnamed: 0,genre,MPAA_rating
0,Musical,G
1,Adventure,G
2,Musical,G
3,Adventure,G
4,Drama,G
...,...,...
574,Drama,PG-13
575,Drama,PG
576,Adventure,PG-13
577,Adventure,PG


### 8.3.1.2. Selección de filas

Las filas se pueden obtener de dos formas. La primera de ellas es por medio de la posición de la fila a seleccionar con el método `iloc[]`:

        df_name.iloc[<col_pos>]

La segunda manera es llamar la fila por el índice (o nombre) que tiene la fila por medio del método `loc[]`:

        df_name.loc[<col_name>]

Veamos la diferencia haciendo una selección de los datos para observar solamente aquellos con género musical:

In [40]:
# Creando una nueva base de datos con los índices diferentes
df_temp = data[data.genre == "Musical"] # ¡Esto lo veremos en un momento!
df_temp["position"] = range(0, 16) # Creamos una variable de la posición
df_temp = df_temp[["position"] + [col for col in df_temp.columns if col != "position"]] # Cambiando el orden
df_temp.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_temp["position"] = range(0, 16) # Creamos una variable de la posición


Unnamed: 0,position,movie_title,release_date,genre,MPAA_rating,total_gross,inflation_adjusted_gross
0,0,Snow White and the Seven Dwarfs,"Dec 21, 1937",Musical,G,"$184,925,485","$5,228,953,251"
2,1,Fantasia,"Nov 13, 1940",Musical,G,"$83,320,000","$2,187,090,808"
10,2,Babes in Toyland,"Dec 14, 1961",Musical,G,"$10,218,316","$124,841,160"
13,3,The Jungle Book,"Oct 18, 1967",Musical,Not Rated,"$141,843,000","$789,612,346"
15,4,The Aristocats,"Apr 24, 1970",Musical,G,"$55,675,257","$255,161,499"


Como podemos observar, los índices cambiaron: ya no son continuos del 0 al 15, sino que empieza con el 0, sigue el 2, después el 10 y así. Sin embargo, las posiciones (que están en la columna `position`) siguen siendo 0, 1, 2 y así.

Por un lado, el método `iloc[]` sirve para elegir por la posición de la fila (representada en la columna  `position`) de la siguiente manera:

In [41]:
# Estipulando la posición de la fila
df_temp.iloc[2]

position                                   2
movie_title                 Babes in Toyland
release_date                    Dec 14, 1961
genre                                Musical
MPAA_rating                                G
total_gross                      $10,218,316
inflation_adjusted_gross        $124,841,160
Name: 10, dtype: object

Por el otro lado, el método `loc[]` sirve para elegir por el índice de la fila (o nombre, si lo tiene) de la siguiente manera:

In [42]:
# Estipulando el índice de la columna
df_temp.loc[2]

position                                 1
movie_title                       Fantasia
release_date                  Nov 13, 1940
genre                              Musical
MPAA_rating                              G
total_gross                    $83,320,000
inflation_adjusted_gross    $2,187,090,808
Name: 2, dtype: object

> **Nota:** el método `.loc` fallará cuando no exista un índice con el número especificado.

También se puede escoger varias filas al tiempo con cualquiera de los dos métodos. En este caso, veamos el más fácil de utilizar con el método `iloc[]` que elige por posiciones:

In [27]:
df_temp.iloc[2:5]

Unnamed: 0,movie_title,release_date,genre,MPAA_rating,total_gross,inflation_adjusted_gross
10,Babes in Toyland,"Dec 14, 1961",Musical,G,"$10,218,316","$124,841,160"
13,The Jungle Book,"Oct 18, 1967",Musical,Not Rated,"$141,843,000","$789,612,346"
15,The Aristocats,"Apr 24, 1970",Musical,G,"$55,675,257","$255,161,499"


### 8.3.1.3. Selección de datos por condiciones

También Python permite escoger un solo dato o un grupo de datos:

In [28]:
data.head()

Unnamed: 0,movie_title,release_date,genre,MPAA_rating,total_gross,inflation_adjusted_gross
0,Snow White and the Seven Dwarfs,"Dec 21, 1937",Musical,G,"$184,925,485","$5,228,953,251"
1,Pinocchio,"Feb 9, 1940",Adventure,G,"$84,300,000","$2,188,229,052"
2,Fantasia,"Nov 13, 1940",Musical,G,"$83,320,000","$2,187,090,808"
3,Song of the South,"Nov 12, 1946",Adventure,G,"$65,000,000","$1,078,510,579"
4,Cinderella,"Feb 15, 1950",Drama,G,"$85,000,000","$920,608,730"


Empecemos con lo que más vamos a utilizar: la selección de datos por condiciones. Para ello, debemos recordar un poco lo que hicimos sobre condiciones, pero aplicadas a un dataframe:

        df_name[<conditions>]

Otengamos las películas del género musical:

In [32]:
data[data.genre == "Musical"]

Unnamed: 0,movie_title,release_date,genre,MPAA_rating,total_gross,inflation_adjusted_gross
0,Snow White and the Seven Dwarfs,"Dec 21, 1937",Musical,G,"$184,925,485","$5,228,953,251"
2,Fantasia,"Nov 13, 1940",Musical,G,"$83,320,000","$2,187,090,808"
10,Babes in Toyland,"Dec 14, 1961",Musical,G,"$10,218,316","$124,841,160"
13,The Jungle Book,"Oct 18, 1967",Musical,Not Rated,"$141,843,000","$789,612,346"
15,The Aristocats,"Apr 24, 1970",Musical,G,"$55,675,257","$255,161,499"
17,Bedknobs and Broomsticks,"Oct 7, 1971",Musical,,"$17,871,174","$91,305,448"
114,Beauty and the Beast,"Nov 13, 1991",Musical,G,"$218,951,625","$363,017,667"
142,Swing Kids,"Mar 5, 1993",Musical,PG-13,"$5,632,086","$11,468,231"
161,The Nightmare Before Christmas,"Oct 13, 1993",Musical,PG,"$50,408,318","$100,026,637"
254,Evita,"Dec 25, 1996",Musical,PG,"$50,047,179","$92,077,628"


Podemos aplicar varias condiciones, por ejemplo:

In [33]:
data[(data.genre == "Musical") & (data.MPAA_rating == "G")]

Unnamed: 0,movie_title,release_date,genre,MPAA_rating,total_gross,inflation_adjusted_gross
0,Snow White and the Seven Dwarfs,"Dec 21, 1937",Musical,G,"$184,925,485","$5,228,953,251"
2,Fantasia,"Nov 13, 1940",Musical,G,"$83,320,000","$2,187,090,808"
10,Babes in Toyland,"Dec 14, 1961",Musical,G,"$10,218,316","$124,841,160"
15,The Aristocats,"Apr 24, 1970",Musical,G,"$55,675,257","$255,161,499"
114,Beauty and the Beast,"Nov 13, 1991",Musical,G,"$218,951,625","$363,017,667"
321,Fantasia 2000 (IMAX),"Jan 1, 2000",Musical,G,"$60,507,228","$94,852,354"
330,Fantasia 2000 (Theatrical Release),"Jun 16, 2000",Musical,G,"$9,103,630","$14,238,144"
354,Beauty and the Beast (IMAX),"Jan 1, 2002",Musical,G,"$25,487,028","$36,980,311"
474,High School Musical 3: Senior Year,"Oct 24, 2008",Musical,G,"$90,559,416","$106,308,538"


> **¡Cuidado!** Cuando se selecciona por múltiples condiciones debe rodearse cada una de ellas con paréntesis (`()`) para evitar problemas con la interacción entre condiciones.

Incluso, algo muy particular de `pandas` es considerar a las columnas como elemento de un Dataframe, por lo cual también se puede llamar de la siguiente manera:

In [43]:
# Llamar una columna
data.movie_title

0      Snow White and the Seven Dwarfs
1                            Pinocchio
2                             Fantasia
3                    Song of the South
4                           Cinderella
                    ...               
574           The Light Between Oceans
575                     Queen of Katwe
576                     Doctor Strange
577                              Moana
578       Rogue One: A Star Wars Story
Name: movie_title, Length: 579, dtype: object

También se puede llamar un conjunto de datos a partir de este método:

In [44]:
# Llamar un conjunto de datos
data.movie_title[1:4]

1            Pinocchio
2             Fantasia
3    Song of the South
Name: movie_title, dtype: object

> **¡Cuidado!** Este método solo permite llamar una columna. Los otros métodos pueden llamar a varias.

En ese sentido, podemos también utilizarlo dentro del llamado de datos por condicionales de la siguiente manera:

In [45]:
data[data.genre == "Drama"].head()

Unnamed: 0,movie_title,release_date,genre,MPAA_rating,total_gross,inflation_adjusted_gross
4,Cinderella,"Feb 15, 1950",Drama,G,"$85,000,000","$920,608,730"
6,Lady and the Tramp,"Jun 22, 1955",Drama,G,"$93,600,000","$1,236,035,515"
7,Sleeping Beauty,"Jan 29, 1959",Drama,,"$9,464,608","$21,505,832"
27,Amy,"Mar 20, 1981",Drama,,$0,$0
30,Night Crossing,"Feb 5, 1982",Drama,,"$4,500,000","$12,903,059"


### 8.3.2. Adición de datos a un dataframe

También se pueden adicionar nuevos elementos a un dataframe. Vamos a verlo con un ejemplo sencillo:

In [50]:
# Creando un nuevo dataframe
my_series = pd.Series({"Belgium":"Brussels", "India":"New Delhi", "United Kingdom":"London", "United States":"Washington"})
data = pd.DataFrame(data= my_series).reset_index()
data.set_axis(["Country", "Capital"], axis = 1, inplace = True)
data.head()

Unnamed: 0,Country,Capital
0,Belgium,Brussels
1,India,New Delhi
2,United Kingdom,London
3,United States,Washington


Para agregar una nueva columna, solo se debe estipular el nombre de la nueva columna y sus valores

In [52]:
# Agregar una nueva columna
data["Continent"] = ["Europe", "Asia", "Europe", "America"] # ¡Debe estar en el orden del dataframe!
data.head()

Unnamed: 0,Country,Capital,Continent
0,Belgium,Brussels,Europe
1,India,New Delhi,Asia
2,United Kingdom,London,Europe
3,United States,Washington,America


Para agregar una nueva fila, solo se debe crear con su posición:

In [54]:
# Creación de una nueva fila
data.loc[4] = ["Colombia", "Bogota", "America"] 
data.head()

Unnamed: 0,Country,Capital,Continent
0,Belgium,Brussels,Europe
1,India,New Delhi,Asia
2,United Kingdom,London,Europe
3,United States,Washington,America
4,Colombia,Bogota,America


> **Nota:** ¡Cuidado! Se utiliza un índice que no existe para agregarlo. Si se utiliza un índice ya existente, Pandas lo reemplazará.

In [55]:
# Creación de una nueva fila
data.loc[2] = ["China", "Beijing", "Asia"] 
data.head()

Unnamed: 0,Country,Capital,Continent
0,Belgium,Brussels,Europe
1,India,New Delhi,Asia
2,China,Beijing,Asia
3,United States,Washington,America
4,Colombia,Bogota,America


### 8.3.3. Eliminación de información

#### 8.3.3.1. Eliminación de columnas y filas

Pandas también permite eliminar información, en dado caso que se requiera. Para ello, se puede utilizar el método `drop`:

In [57]:
# Eliminación de una columna
data.drop("Continent", axis = 1, inplace = True)
data.head()

Unnamed: 0,Country,Capital
0,Belgium,Brussels
1,India,New Delhi
2,China,Beijing
3,United States,Washington
4,Colombia,Bogota


In [58]:
# Eliminación de una fila
data.drop(3, axis = 0, inplace = True)
data.head()

Unnamed: 0,Country,Capital
0,Belgium,Brussels
1,India,New Delhi
2,China,Beijing
4,Colombia,Bogota


> **Nota 1:** para eliminar una fila se debe estipular la opción `axis = 0`, para eliminar una columna se debe estipular la opción `axis = 1`.

> **Nota 2:** para realizar el cambio permanentemente, se debe estipular la opción `inplace = True`, de lo contrario no hará el cambio permanente.

In [59]:
# Eliminación de una Columna
data.drop("Country", axis = 1)
data.head()

Unnamed: 0,Country,Capital
0,Belgium,Brussels
1,India,New Delhi
2,China,Beijing
4,Colombia,Bogota


#### 8.3.3.2. Eliminación de duplicados

También se puede eliminar duplicados de una base de datos con el método `drop_duplicates`:

In [62]:
# Creando un duplicado
data.loc[5] = ["Colombia", "Bogota"]
data.head()

Unnamed: 0,Country,Capital
0,Belgium,Brussels
1,India,New Delhi
2,China,Beijing
4,Colombia,Bogota
5,Colombia,Bogota


In [64]:
# Eliminando el duplicado
data.drop_duplicates(inplace = True)
data

Unnamed: 0,Country,Capital
0,Belgium,Brussels
1,India,New Delhi
2,China,Beijing
4,Colombia,Bogota


### 8.3.4. Renombrar las columnas y los índices

Para renombrar las columnas y los índices se utiliza el método `rename`:

In [65]:
# Renombrar columnas
data.rename(columns = {"Country": "País", "Capital": "Cap"}, inplace = True)
data

Unnamed: 0,País,Cap
0,Belgium,Brussels
1,India,New Delhi
2,China,Beijing
4,Colombia,Bogota


In [67]:
# Renombrar filas por índice
data.rename(index = {0: "A"}, inplace = True)
data

Unnamed: 0,País,Cap
A,Belgium,Brussels
1,India,New Delhi
2,China,Beijing
4,Colombia,Bogota


### 8.3.5. Ejercicios

#### 8.3.5.1. Diario viajero

Construya un dataframe con máximo 5 de los municipios y sus respectivos departamentos donde ha viajado en los últimos años. Debe tener entonces dos columnas: municipios y departamentos.

Agréguele dos columnas nuevas: una con el año en el que viajó y otra con una puntuación de 0 a 5, donde 5 es la máxima calificación, de lo que le gustó su viaje.

Agréguele también dos filas nuevas con los lugares donde quisiera viajar próximamente en el país. En el año escriba el año en el que se propone hacerlo y en la puntuación escriba "NA".

Borre la columna del año en el que viajó y la fila del primer viaje que realizó.

## 8.6. Combinación de bases de datos

Resulta común que una necesitemos utilizar diferentes bases de datos con diferente información, pero que no se encuentran en un solo archivo u objeto. Dos casos son representativos:

### 8.6.1. Unión de bases de datos:

Se refiere al caso en el que hay dos o varios archivos con el mismo tipo de información y estructura similar, pero que están separados. Por ejemplo, la lista de clientes de 2012 a 2020 y una nueva lista de clientes de 2021 a 2024.

En ese sentido, el objetivo no es agregarle más variables a la base de datos, sino unirla "una debajo de la otra" para completar la base de datos.

Para esta operación, por lo general se utiliza la función `concat()` de `pandas`.

### 8.6.2. Fusión de bases de datos:

Se refiere al caso en el que hay dos o varios archivos con diferente tipo de información, pero con una o varias llaves comunes. Por ejemplo, un archivo con la población de cada país por año y otro con el PIB anual.

En ese sentido, el objetivo es combinar varios tipos de información, agregando datos a una unidad específica. Bajo el ejemplo, agregar variables a la misma llave: el año y el país. Por tanto, la idea no es expandir hacia abajo la base de datos, sino hacia "los lados".

Para esta operación, por lo general se utiliza la función `merge()` de `pandas`.
