### Biblioteca [**Pandas**](https://pandas.pydata.org/docs/) üêº
<br>
<center><img src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" width = 400></center>

*La Biblioteca `pandas` proporciona estructuras de datos y herramientas de an√°lisis de datos de alto rendimiento y f√°ciles de usar. La principal estructura de datos es el `DataFrame`, que puede considerarse como una tabla 2D en memoria (como una hoja de c√°lculo, con nombres de columnas y etiquetas de filas).*

# **Tipos de datos**

En `pandas` hay dos tipos de datos fundamentales:

- Las [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)
- Los [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

La librer√≠a `pandas` contiene las siguientes estructuras de datos √∫tiles:
* Objetos `Series`. Un objeto `Series` es un array 1D, similar a una columna en una hoja de c√°lculo (con un nombre de columna y etiquetas de fila).
* Objetos `DataFrame`. Es una tabla 2D, similar a una hoja de c√°lculo (con nombres de columna y etiquetas de fila).


In [65]:
import pandas as pd

## `Series`

In [66]:
s = pd.Series([2,-1,3,5])
s

0    2
1   -1
2    3
3    5
dtype: int64

## Etiqueta de √≠ndice (Index labels)
Cada elemento de un objeto `Series` tiene un identificador √∫nico llamado *etiqueta de √≠ndice*. Por defecto, es simplemente la posici√≥n del elemento en la `Serie` (empezando en `0`) pero tambi√©n puedes establecer las etiquetas manualmente:

In [67]:
s2 = pd.Series([68, 83, 112, 68], index=["alice", "bob", "charles", "darwin"])
s2

alice       68
bob         83
charles    112
darwin      68
dtype: int64

Se puede utilizar las `Series` de forma similar a un diccionario:

In [68]:
s2["bob"]

np.int64(83)

Se puede acceder a los elementos mediante √≠ndices, como en un arreglo:

In [69]:
s2[1]

  s2[1]


np.int64(83)

In [70]:
s2.iloc[1]

np.int64(83)

Un slicing sobre una `Series` se aplica sobre las etiquetas de las filas:

In [71]:
s2.iloc[1:3]

bob         83
charles    112
dtype: int64

‚ö†Ô∏è Para ser m√°s expl√≠cito cu√°ndo se accede por etiqueta o por √≠ndice, se recomienda utilizar siempre el atributo `loc` cuando se acceda por etiqueta, y el atributo `iloc` cuando se acceda por √≠ndice:

In [72]:
s2.loc["bob"]

np.int64(83)

In [73]:
s2.iloc[1]

np.int64(83)

Se pueden tener resultados inesperados cuando se utilizan las etiquetas num√©ricas por defecto, ser cuidadoso!!:

In [74]:
s3 = pd.Series([1000, 1001, 1002, 1003])
s3

0    1000
1    1001
2    1002
3    1003
dtype: int64

In [75]:
slice_s3 = s3[2:]
slice_s3

2    1002
3    1003
dtype: int64

In [76]:
slice_s3[2]

np.int64(1002)

¬°Ojo! El primer elemento tiene el √≠ndice `2`. El elemento con etiqueta de √≠ndice `0` fue extra√≠do de esta parte:

‚úÖ Pero recuerda que puedes acceder a los elementos mediante √≠ndice utilizando el atributo `iloc`. Esto demuestra la raz√≥n por la que siempre es mejor utilizar `iloc` para acceder a los elementos:

In [77]:
slice_s3.iloc[0] = 20

In [78]:
s3

0    1000
1    1001
2      20
3    1003
dtype: int64

## Inicializar una serie desde un `dict`
Las claves del diccionario se utilizan como etiquetas de √≠ndice:

In [79]:
pesos = {"alice": 68, "bob": 83, "colin": 86, "darwin": 68}
s3 = pd.Series(pesos)
s3

alice     68
bob       83
colin     86
darwin    68
dtype: int64

Se puede controlar qu√© elementos incluir en la `Serie` y en qu√© orden, especificando expl√≠citamente el `√≠ndice` deseado:

In [80]:
s4 = pd.Series(pesos, index = ["colin", "alice"])
s4

colin    86
alice    68
dtype: int64

## `DataFrame`
- son parecidos a una tabla, con etiquetas de fila (nombre de las filas) y encabezados (nombres de las columnas)
- cada columna tiene un tipo de dato homog√©neo. El `DataFrame` puede ser heterog√©neo (por columnas)
- cada columna de un `DataFrame` vendr√≠a a ser una `Series`
- tanto las etiquetas de las filas como los encabezados no necesitan ser num√©ricos

Se puede pensar un `DataFrame` como un diccionario de `Series`.

## Creaci√≥n de un `DataFrame`
Se puede crear un DataFrame mediante un diccionario de `Series`:

In [81]:
diccionario_personas = {
    "peso": pd.Series([68, 83, 112], index=["alice", "bob", "charles"]),
    "cumplea√±os": pd.Series([1984, 1985, 1992], index=["bob", "alice", "charles"]),
    "hijos": pd.Series([0, 3], index=["charles", "bob"], dtype="Int32"),
    "hobby": pd.Series(["Pintura", "Baile"], index=["alice", "bob"]),
}
personas = pd.DataFrame(diccionario_personas)
personas

Unnamed: 0,peso,cumplea√±os,hijos,hobby
alice,68,1985,,Pintura
bob,83,1984,3.0,Baile
charles,112,1992,0.0,


Se puede acceder a las columnas usando los nombres de las mismas. Se devuelven como objetos `Series`:

In [82]:
personas["cumplea√±os"]

alice      1985
bob        1984
charles    1992
Name: cumplea√±os, dtype: int64

Se pueden acceder varias columnas a la vez:

In [83]:
personas[["cumplea√±os", "hobby"]]

Unnamed: 0,cumplea√±os,hobby
alice,1985,Pintura
bob,1984,Baile
charles,1992,


Si se pasa una lista de columnas y/o etiquetas de filas al constructor `DataFrame`, se garantizar√° que estas columnas y/o filas existir√°n, en ese orden, y no existir√° ninguna otra columna/fila. Por ejemplo:

In [84]:
d2 = pd.DataFrame(
        diccionario_personas,
        columns=["cumplea√±os", "peso", "altura"],
        index=["bob", "alice", "eugene"]
     )
d2

Unnamed: 0,cumplea√±os,peso,altura
bob,1984.0,83.0,
alice,1985.0,68.0,
eugene,,,


Otra forma de crear un `DataFrame` es pasar todos los valores al constructor como un `ndarray`, o una lista de listas, y especificar los nombres de las columnas y las etiquetas de las filas por separado:

In [85]:
import numpy as np

values = [
            [1985, np.nan, "Pintura",   68],
            [1984, 3,      "Baile",  83],
            [1992, 0,      np.nan,    112]
         ]
d3 = pd.DataFrame(
        values,
        columns=["cumplea√±os", "hijos", "hobby", "peso"],
        index=["alice", "bob", "charles"]
     )
d3

Unnamed: 0,cumplea√±os,hijos,hobby,peso
alice,1985,,Pintura,68
bob,1984,3.0,Baile,83
charles,1992,0.0,,112


Tambi√©n se puede crear a partir de otro `DataFrame`:

In [86]:
d4 = pd.DataFrame(
         d3,
         columns=["hobby", "hijos"],
         index=["alice", "bob"]
     )
d4

Unnamed: 0,hobby,hijos
alice,Pintura,
bob,Baile,3.0


Tambi√©n es posible crear un `DataFrame` con un diccionario de diccionarios:

In [87]:
personas = pd.DataFrame({
    "cumplea√±os": {"alice": 1985, "bob": 1984, "charles": 1992},
    "hobby": {"alice": "Pintura", "bob": "Baile"},
    "peso": {"alice": 68, "bob": 83, "charles": 112},
    "hijos": {"bob": 3, "charles": 0}
})
personas

Unnamed: 0,cumplea√±os,hobby,peso,hijos
alice,1985,Pintura,68,
bob,1984,Baile,83,3.0
charles,1992,,112,0.0


## Acceso a los elementos


In [88]:
personas

Unnamed: 0,cumplea√±os,hobby,peso,hijos
alice,1985,Pintura,68,
bob,1984,Baile,83,3.0
charles,1992,,112,0.0


El atributo `loc` permite acceder a las filas en lugar de a las columnas. El resultado es un objeto `Series` en el que los nombres de columna del `DataFrame` se asignan como etiquetas de fila:

In [89]:
personas.loc["charles"]

cumplea√±os    1992
hobby          NaN
peso           112
hijos          0.0
Name: charles, dtype: object

Tambi√©n puede acceder a las filas mediante √≠ndices utilizando el atributo `iloc`:

In [90]:
personas.iloc[2]

cumplea√±os    1992
hobby          NaN
peso           112
hijos          0.0
Name: charles, dtype: object

Tambi√©n se puede hacer un slice de las filas, y esto devuelve un objeto `DataFrame`:

In [91]:
personas.iloc[1:3]

Unnamed: 0,cumplea√±os,hobby,peso,hijos
bob,1984,Baile,83,3.0
charles,1992,,112,0.0


**Usando el segundo eje, accedemos a las columnas**

In [92]:
personas.loc["alice":"bob", "cumplea√±os":"peso"]

Unnamed: 0,cumplea√±os,hobby,peso
alice,1985,Pintura,68
bob,1984,Baile,83


In [93]:
personas.iloc[[0,2], [0,3]]

Unnamed: 0,cumplea√±os,hijos
alice,1985,
charles,1992,0.0


**m√°s r√°pido cuando se quiere un √∫nico valor**

In [94]:
personas.at["bob", "hobby"]

'Baile'

In [95]:
personas.iat[1,1] = 'Danza'

In [96]:
personas

Unnamed: 0,cumplea√±os,hobby,peso,hijos
alice,1985,Pintura,68,
bob,1984,Danza,83,3.0
charles,1992,,112,0.0


## Agregar y remover columnas


In [97]:
personas

Unnamed: 0,cumplea√±os,hobby,peso,hijos
alice,1985,Pintura,68,
bob,1984,Danza,83,3.0
charles,1992,,112,0.0


In [98]:
personas["edad"] = 2025 - personas["cumplea√±os"]
personas

Unnamed: 0,cumplea√±os,hobby,peso,hijos,edad
alice,1985,Pintura,68,,40
bob,1984,Danza,83,3.0,41
charles,1992,,112,0.0,33


In [99]:
personas["mayores a 35"] = personas["edad"] > 35
personas

Unnamed: 0,cumplea√±os,hobby,peso,hijos,edad,mayores a 35
alice,1985,Pintura,68,,40,True
bob,1984,Danza,83,3.0,41,True
charles,1992,,112,0.0,33,False


In [100]:
cumples = personas.pop("cumplea√±os")
cumples

alice      1985
bob        1984
charles    1992
Name: cumplea√±os, dtype: int64

In [101]:
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35
alice,Pintura,68,,40,True
bob,Danza,83,3.0,41,True
charles,,112,0.0,33,False


A√±adir nueva columna. Las filas que faltan se rellenan con NaN y las que sobran se ignoran:

In [102]:
personas["mascotas"] = pd.Series({"bob": 0, "charles": 5, "eugene": 1})
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas
alice,Pintura,68,,40,True,
bob,Danza,83,3.0,41,True,0.0
charles,,112,0.0,33,False,5.0


In [103]:
personas["bla"] = pd.Series({"bob": 0, "charles": 5})
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla
alice,Pintura,68,,40,True,,
bob,Danza,83,3.0,41,True,0.0,0.0
charles,,112,0.0,33,False,5.0,5.0


#### Filtrar datos usando expresiones l√≥gicas

In [104]:
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla
alice,Pintura,68,,40,True,,
bob,Danza,83,3.0,41,True,0.0,0.0
charles,,112,0.0,33,False,5.0,5.0


In [105]:
personas[personas['hobby'] == 'Danza']

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla
bob,Danza,83,3.0,41,True,0.0,0.0


In [106]:
personas[(personas['hobby'] == 'Danza') | (personas['hobby'] == 'Pintura')]

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla
alice,Pintura,68,,40,True,,
bob,Danza,83,3.0,41,True,0.0,0.0


In [107]:
personas['edad'] > 35

alice       True
bob         True
charles    False
Name: edad, dtype: bool

In [108]:
personas[personas['edad'] > 35]

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla
alice,Pintura,68,,40,True,,
bob,Danza,83,3.0,41,True,0.0,0.0


In [109]:
personas["frecuencia"] = pd.Series({"bob": 70})
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla,frecuencia
alice,Pintura,68,,40,True,,,
bob,Danza,83,3.0,41,True,0.0,0.0,70.0
charles,,112,0.0,33,False,5.0,5.0,


In [110]:
#imputar valores faltantes en frecuencia

personas.loc[(personas["edad"] >= 40) & (personas["frecuencia"].isna()), "frecuencia"] = 75
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla,frecuencia
alice,Pintura,68,,40,True,,,75.0
bob,Danza,83,3.0,41,True,0.0,0.0,70.0
charles,,112,0.0,33,False,5.0,5.0,


## Ordenar un `DataFrame`
Se puede ordenar un `DataFrame` llamando a su m√©todo `sort_index`. Por defecto, ordena las filas mediante sus etiquetas, en orden ascendente:

In [111]:
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla,frecuencia
alice,Pintura,68,,40,True,,,75.0
bob,Danza,83,3.0,41,True,0.0,0.0,70.0
charles,,112,0.0,33,False,5.0,5.0,


In [112]:
personas.sort_index(ascending=False)

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla,frecuencia
charles,,112,0.0,33,False,5.0,5.0,
bob,Danza,83,3.0,41,True,0.0,0.0,70.0
alice,Pintura,68,,40,True,,,75.0


In [113]:
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla,frecuencia
alice,Pintura,68,,40,True,,,75.0
bob,Danza,83,3.0,41,True,0.0,0.0,70.0
charles,,112,0.0,33,False,5.0,5.0,


`sort_index` devuelve una *copia* ordenada del `DataFrame`. Para modificar el dataframe `personas` directamente, podemos fijar el par√°metro `inplace` a `True`. Adem√°s, podemos ordenar las columnas en lugar de las filas estableciendo `axis=1`:

In [114]:
personas.sort_index(inplace=True, ascending=False)

In [115]:
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla,frecuencia
charles,,112,0.0,33,False,5.0,5.0,
bob,Danza,83,3.0,41,True,0.0,0.0,70.0
alice,Pintura,68,,40,True,,,75.0


In [116]:
personas.sort_index(axis=1, ascending=False)

Unnamed: 0,peso,mayores a 35,mascotas,hobby,hijos,frecuencia,edad,bla
charles,112,False,5.0,,0.0,,33,5.0
bob,83,True,0.0,Danza,3.0,70.0,41,0.0
alice,68,True,,Pintura,,75.0,40,


In [117]:
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla,frecuencia
charles,,112,0.0,33,False,5.0,5.0,
bob,Danza,83,3.0,41,True,0.0,0.0,70.0
alice,Pintura,68,,40,True,,,75.0


Para ordenar el `DataFrame` por los valores en lugar de sus etiquetas, podemos utilizar `sort_values` y especificar la columna por la cual ordenar:

In [118]:
personas.sort_values(by="edad", inplace=True)
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas,bla,frecuencia
charles,,112,0.0,33,False,5.0,5.0,
alice,Pintura,68,,40,True,,,75.0
bob,Danza,83,3.0,41,True,0.0,0.0,70.0


## Operaciones con `DataFrame`s


In [119]:
arreglo_notas = np.array([[8, 8, 9], [10, 9, 9], [4, 8, 2], [9, 10, 10]])
notas = pd.DataFrame(arreglo_notas, columns=["sep", "oct", "nov"], index=["alice", "bob", "charles", "darwin"])
notas

Unnamed: 0,sep,oct,nov
alice,8,8,9
bob,10,9,9
charles,4,8,2
darwin,9,10,10


Se pueden aplicar funciones matem√°ticas de NumPy en un `DataFrame`: la funci√≥n se aplica a todos los valores:

In [120]:
np.sqrt(notas)

Unnamed: 0,sep,oct,nov
alice,2.828427,2.828427,3.0
bob,3.162278,3.0,3.0
charles,2.0,2.828427,1.414214
darwin,3.0,3.162278,3.162278


Al sumar un √∫nico valor a un `DataFrame` se suma ese valor a todos los elementos del `DataFrame`.

In [121]:
notas + 1

Unnamed: 0,sep,oct,nov
alice,9,9,10
bob,11,10,10
charles,5,9,3
darwin,10,11,11


In [122]:
notas

Unnamed: 0,sep,oct,nov
alice,8,8,9
bob,10,9,9
charles,4,8,2
darwin,9,10,10


Por supuesto, lo mismo ocurre con el resto de operaciones binarias, incluidas las operaciones aritm√©ticas (`*`,`/`,`**`...) y condicionales (`>`, `==`)

In [123]:
notas >= 5

Unnamed: 0,sep,oct,nov
alice,True,True,True
bob,True,True,True
charles,False,True,False
darwin,True,True,True


In [124]:
notas

Unnamed: 0,sep,oct,nov
alice,8,8,9
bob,10,9,9
charles,4,8,2
darwin,9,10,10


Las operaciones de agregaci√≥n como calcular el `m√°ximo`, la `suma` o la `media` de un `DataFrame`, se aplican a cada columna, y se obtiene un objeto `Series`:

In [125]:
notas.mean(axis=1)

alice      8.333333
bob        9.333333
charles    4.666667
darwin     9.666667
dtype: float64

El m√©todo `all` tambi√©n es una operaci√≥n de agregaci√≥n: comprueba si *todos* los valores son `True` o no. Veamos durante qu√© meses todos los alumnos obtuvieron una nota superior a `5`:

In [126]:
(notas > 5).all()

sep    False
oct     True
nov    False
dtype: bool

‚úÖ La mayor√≠a de estas funciones toman un par√°metro opcional `axis` que permite especificar a lo largo de qu√© eje del `DataFrame` desea que se ejecute la operaci√≥n. El valor por defecto es `axis=0`, lo que significa que la operaci√≥n se ejecuta en cada columna. Puede establecer `axis=1` para aplicar la operaci√≥n horizontalmente (en cada fila). Por ejemplo, averig√ºemos qu√© alumnos tienen todas las notas superiores a `5`:


In [127]:
(notas > 5).all(axis=1)

alice       True
bob         True
charles    False
darwin      True
dtype: bool

El m√©todo `any` devuelve `True` si alg√∫n valor es True. Veamos qui√©n tiene al menos una nota 10:

In [128]:
(notas == 10).any(axis=1)

alice      False
bob         True
charles    False
darwin      True
dtype: bool

## Manejo de datos faltantes
Tratar con datos faltantes es una tarea frecuente cuando se trabaja con datos reales. Pandas ofrece algunas herramientas para manejar estos datos.

Intentemos solucionar el problema anterior. Por ejemplo, podemos decidir que los datos que falten den como resultado un cero, en lugar de `NaN`. Podemos sustituir todos los valores `NaN` por cualquier valor utilizando el m√©todo `fillna()`:

In [129]:
notas

Unnamed: 0,sep,oct,nov
alice,8,8,9
bob,10,9,9
charles,4,8,2
darwin,9,10,10


In [130]:
arreglo_bonus = np.array([[0, np.nan, 2], [np.nan, 1, 0], [0, 1, 0], [3, 3, 0]])
bonus = pd.DataFrame(arreglo_bonus, columns=["oct", "nov", "dec"], index=["bob", "colin", "darwin", "charles"])
bonus

Unnamed: 0,oct,nov,dec
bob,0.0,,2.0
colin,,1.0,0.0
darwin,0.0,1.0,0.0
charles,3.0,3.0,0.0


In [131]:
notas + bonus

Unnamed: 0,dec,nov,oct,sep
alice,,,,
bob,,,9.0,
charles,,5.0,11.0,
colin,,,,
darwin,,11.0,10.0,


In [132]:
(notas + bonus).fillna(0)

Unnamed: 0,dec,nov,oct,sep
alice,0.0,0.0,0.0,0.0
bob,0.0,0.0,9.0,0.0
charles,0.0,5.0,11.0,0.0
colin,0.0,0.0,0.0,0.0
darwin,0.0,11.0,10.0,0.0


## Concatenaci√≥n de `DataFrames`

In [133]:
ciudades = pd.DataFrame(
    [
        ["CA", "San Francisco", 37.781334, -122.416728],
        ["NY", "New York", 40.705649, -74.008344],
        ["FL", "Miami", 25.791100, -80.320733],
        ["OH", "Cleveland", 41.473508, -81.739791],
        ["UT", "Salt Lake City", 40.755851, -111.896657]
    ], columns=["estado", "ciudad", "lat", "lng"])
ciudades

Unnamed: 0,estado,ciudad,lat,lng
0,CA,San Francisco,37.781334,-122.416728
1,NY,New York,40.705649,-74.008344
2,FL,Miami,25.7911,-80.320733
3,OH,Cleveland,41.473508,-81.739791
4,UT,Salt Lake City,40.755851,-111.896657


In [134]:
ciudades_2 = pd.DataFrame(
    [
        [808976, "San Francisco", "California"],
        [8363710, "New York", "New-York"],
        [413201, "Miami", "Florida"],
        [2242193, "Houston", "Texas"]
    ], index=[3,4,5,6], columns=["poblacion", "ciudad", "estado"])
ciudades_2

Unnamed: 0,poblacion,ciudad,estado
3,808976,San Francisco,California
4,8363710,New York,New-York
5,413201,Miami,Florida
6,2242193,Houston,Texas


In [135]:
ciudades_concat = pd.concat([ciudades, ciudades_2])
ciudades_concat

Unnamed: 0,estado,ciudad,lat,lng,poblacion
0,CA,San Francisco,37.781334,-122.416728,
1,NY,New York,40.705649,-74.008344,
2,FL,Miami,25.7911,-80.320733,
3,OH,Cleveland,41.473508,-81.739791,
4,UT,Salt Lake City,40.755851,-111.896657,
3,California,San Francisco,,,808976.0
4,New-York,New York,,,8363710.0
5,Florida,Miami,,,413201.0
6,Texas,Houston,,,2242193.0


Observe que esta operaci√≥n alinea los datos horizontalmente (por columnas) pero no verticalmente (por filas). En este ejemplo, acabamos con varias filas que tienen el mismo √≠ndice (por ejemplo, 3).

In [136]:
ciudades_concat.loc[3]

Unnamed: 0,estado,ciudad,lat,lng,poblacion
3,OH,Cleveland,41.473508,-81.739791,
3,California,San Francisco,,,808976.0


O podemos decirle a pandas que ignore el √≠ndice:

In [137]:
pd.concat([ciudades, ciudades_2], ignore_index=True)

Unnamed: 0,estado,ciudad,lat,lng,poblacion
0,CA,San Francisco,37.781334,-122.416728,
1,NY,New York,40.705649,-74.008344,
2,FL,Miami,25.7911,-80.320733,
3,OH,Cleveland,41.473508,-81.739791,
4,UT,Salt Lake City,40.755851,-111.896657,
5,California,San Francisco,,,808976.0
6,New-York,New York,,,8363710.0
7,Florida,Miami,,,413201.0
8,Texas,Houston,,,2242193.0


Observe que cuando una columna no existe en un `DataFrame`, es como si estuviera lleno de valores `NaN`. Si establecemos `join="inner"`, s√≥lo se devolver√°n las columnas que existan en ambos `DataFrame`:

In [138]:
pd.concat([ciudades, ciudades_2], join="inner")

Unnamed: 0,estado,ciudad
0,CA,San Francisco
1,NY,New York
2,FL,Miami
3,OH,Cleveland
4,UT,Salt Lake City
3,California,San Francisco
4,New-York,New York
5,Florida,Miami
6,Texas,Houston


Se pueden concatenar `DataFrame`s horizontalmente en lugar de verticalmente estableciendo `axis=1`:

In [139]:
pd.concat([ciudades, ciudades_2], axis=1)

Unnamed: 0,estado,ciudad,lat,lng,poblacion,ciudad.1,estado.1
0,CA,San Francisco,37.781334,-122.416728,,,
1,NY,New York,40.705649,-74.008344,,,
2,FL,Miami,25.7911,-80.320733,,,
3,OH,Cleveland,41.473508,-81.739791,808976.0,San Francisco,California
4,UT,Salt Lake City,40.755851,-111.896657,8363710.0,New York,New-York
5,,,,,413201.0,Miami,Florida
6,,,,,2242193.0,Houston,Texas


En este caso no tiene mucho sentido porque los √≠ndices no se alinean bien (por ejemplo, Cleveland y San Francisco acaban en la misma fila, porque compart√≠an la etiqueta de √≠ndice `3`). As√≠ que vamos a reindexar el `DataFrame` por nombre de ciudad antes de concatenar:

In [140]:
ciudades.set_index("ciudad")

Unnamed: 0_level_0,estado,lat,lng
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
San Francisco,CA,37.781334,-122.416728
New York,NY,40.705649,-74.008344
Miami,FL,25.7911,-80.320733
Cleveland,OH,41.473508,-81.739791
Salt Lake City,UT,40.755851,-111.896657


In [141]:
pd.concat([ciudades.set_index("ciudad"), ciudades_2.set_index("ciudad")], axis=1)

Unnamed: 0_level_0,estado,lat,lng,poblacion,estado
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
San Francisco,CA,37.781334,-122.416728,808976.0,California
New York,NY,40.705649,-74.008344,8363710.0,New-York
Miami,FL,25.7911,-80.320733,413201.0,Florida
Cleveland,OH,41.473508,-81.739791,,
Salt Lake City,UT,40.755851,-111.896657,,
Houston,,,,2242193.0,Texas


## Guardar y cargar dataframes

In [142]:
import sys
if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/drive')
    %cd '/content/drive/MyDrive/Inteligencia Artificial/IA - Clases de PraÃÅctica/ContenidosPorTemas'
    print('google.colab')

podemos guardarlo en CSV, HTML y JSON:

In [143]:
ciudades.to_csv("./1_datos/ciudades.csv")
ciudades.to_html("./1_datos/ciudades.html")
ciudades.to_json("./1_datos/ciudades.json")

Para cagarlo desde un csv

In [None]:
df = pd.read_csv("./1_datos/ciudades.csv", index_col=0)
df

Unnamed: 0,estado,ciudad,lat,lng
0,CA,San Francisco,37.781334,-122.416728
1,NY,New York,40.705649,-74.008344
2,FL,Miami,25.7911,-80.320733
3,OH,Cleveland,41.473508,-81.739791
4,UT,Salt Lake City,40.755851,-111.896657
