### Biblioteca [**Pandas**](https://pandas.pydata.org/docs/) 🐼
<br>
<center><img src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" width = 400></center>

*La Biblioteca `pandas` proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. La principal estructura de datos es el `DataFrame`, que puede considerarse como una tabla 2D en memoria (como una hoja de cálculo, con nombres de columnas y etiquetas de filas).*

# **Tipos de datos**

En `pandas` hay dos tipos de datos fundamentales:

- Las [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)
- Los [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

La librería `pandas` contiene las siguientes estructuras de datos útiles:
* Objetos `Series`. Un objeto `Series` es un array 1D, similar a una columna en una hoja de cálculo (con un nombre de columna y etiquetas de fila).
* Objetos `DataFrame`. Es una tabla 2D, similar a una hoja de cálculo (con nombres de columna y etiquetas de fila).


In [1]:
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


## `Series`

In [2]:
s = pd.Series([2,-1,3,5])
s

0    2
1   -1
2    3
3    5
dtype: int64

## Etiqueta de índice (Index labels)
Cada elemento de un objeto `Series` tiene un identificador único llamado *etiqueta de índice*. Por defecto, es simplemente la posición del elemento en la `Serie` (empezando en `0`) pero también puedes establecer las etiquetas manualmente:

In [3]:
s2 = pd.Series([68, 83, 112, 68], index=["alice", "bob", "charles", "darwin"])
s2

alice       68
bob         83
charles    112
darwin      68
dtype: int64

Se puede utilizar las `Series` de forma similar a un diccionario:

In [4]:
s2["bob"]

83

Se puede acceder a los elementos mediante índices, como en un arreglo:

In [5]:
s2[1]

  s2[1]


83

Un slicing sobre una `Series` se aplica sobre las etiquetas de las filas:

In [6]:
s2.iloc[1:3]

bob         83
charles    112
dtype: int64

⚠️ Para ser más explícito cuándo se accede por etiqueta o por índice, se recomienda utilizar siempre el atributo `loc` cuando se acceda por etiqueta, y el atributo `iloc` cuando se acceda por índice:

In [7]:
s2.loc["bob"]

83

In [9]:
s2.iloc[1]

83

Se pueden tener resultados inesperados cuando se utilizan las etiquetas numéricas por defecto, ser cuidadoso!!:

In [10]:
s3 = pd.Series([1000, 1001, 1002, 1003])
s3

0    1000
1    1001
2    1002
3    1003
dtype: int64

In [11]:
slice_s3 = s3[2:]
slice_s3

2    1002
3    1003
dtype: int64

In [12]:
slice_s3[0]

KeyError: 0

¡Ojo! El primer elemento tiene el índice `2`. El elemento con etiqueta de índice `0` fue extraído de esta parte:

✅ Pero recuerda que puedes acceder a los elementos mediante índice utilizando el atributo `iloc`. Esto demuestra la razón por la que siempre es mejor utilizar `loc` y `iloc` para acceder a los elementos:

In [13]:
slice_s3.iloc[0]

1002

## Inicializar una serie desde un `dict`
Las claves del diccionario se utilizan como etiquetas de índice:

In [14]:
pesos = {"alice": 68, "bob": 83, "colin": 86, "darwin": 68}
s3 = pd.Series(pesos)
s3

alice     68
bob       83
colin     86
darwin    68
dtype: int64

Se puede controlar qué elementos incluir en la `Serie` y en qué orden, especificando explícitamente el `índice` deseado:

In [15]:
s4 = pd.Series(pesos, index = ["colin", "alice"])
s4

colin    86
alice    68
dtype: int64

##`DataFrame`
- son parecidos a una tabla, con etiquetas de fila (nombre de las filas) y encabezados (nombres de las columnas)
- cada columna tiene un tipo de dato homogéneo. El `DataFrame` puede ser heterogéneo (por columnas)
- cada columna de un `DataFrame` vendría a ser una `Series`
- tanto las etiquetas de las filas como los encabezados no necesitan ser numéricos

Se puede pensar un `DataFrame` como un diccionario de `Series`.

## Creación de un `DataFrame`
Se puede crear un DataFrame mediante un diccionario de `Series`:

In [16]:
diccionario_personas = {
    "peso": pd.Series([68, 83, 112], index=["alice", "bob", "charles"]),
    "cumpleaños": pd.Series([1984, 1985, 1992], index=["bob", "alice", "charles"]),
    "hijos": pd.Series([0, 3], index=["charles", "bob"]),
    "hobby": pd.Series(["Pintura", "Baile"], index=["alice", "bob"]),
}
personas = pd.DataFrame(diccionario_personas)
personas

Unnamed: 0,peso,cumpleaños,hijos,hobby
alice,68,1985,,Pintura
bob,83,1984,3.0,Baile
charles,112,1992,0.0,


Se puede acceder a las columnas usando los nombres de las mismas. Se devuelven como objetos `Series`:

In [17]:
personas["cumpleaños"]

alice      1985
bob        1984
charles    1992
Name: cumpleaños, dtype: int64

Se pueden acceder varias columnas a la vez:

In [18]:
personas[["cumpleaños", "hobby"]]

Unnamed: 0,cumpleaños,hobby
alice,1985,Pintura
bob,1984,Baile
charles,1992,


Si se pasa una lista de columnas y/o etiquetas de filas al constructor `DataFrame`, se garantizará que estas columnas y/o filas existirán, en ese orden, y no existirá ninguna otra columna/fila. Por ejemplo:

In [19]:
d2 = pd.DataFrame(
        diccionario_personas,
        columns=["cumpleaños", "peso", "altura"],
        index=["bob", "alice", "eugene"]
     )
d2

Unnamed: 0,cumpleaños,peso,altura
bob,1984.0,83.0,
alice,1985.0,68.0,
eugene,,,


Otra forma de crear un `DataFrame` es pasar todos los valores al constructor como un `ndarray`, o una lista de listas, y especificar los nombres de las columnas y las etiquetas de las filas por separado:

In [20]:
import numpy as np

values = [
            [1985, np.nan, "Pintura",   68],
            [1984, 3,      "Baile",  83],
            [1992, 0,      np.nan,    112]
         ]
d3 = pd.DataFrame(
        values,
        columns=["cumpleaños", "hijos", "hobby", "peso"],
        index=["alice", "bob", "charles"]
     )
d3

Unnamed: 0,cumpleaños,hijos,hobby,peso
alice,1985,,Pintura,68
bob,1984,3.0,Baile,83
charles,1992,0.0,,112


También se puede crear a partir de otro `DataFrame`:

In [21]:
d4 = pd.DataFrame(
         d3,
         columns=["hobby", "hijos"],
         index=["alice", "bob"]
     )
d4

Unnamed: 0,hobby,hijos
alice,Pintura,
bob,Baile,3.0


También es posible crear un `DataFrame` con un diccionario de diccionarios:

In [22]:
personas = pd.DataFrame({
    "cumpleaños": {"alice": 1985, "bob": 1984, "charles": 1992},
    "hobby": {"alice": "Pintura", "bob": "Baile"},
    "peso": {"alice": 68, "bob": 83, "charles": 112},
    "hijos": {"bob": 3, "charles": 0}
})
personas

Unnamed: 0,cumpleaños,hobby,peso,hijos
alice,1985,Pintura,68,
bob,1984,Baile,83,3.0
charles,1992,,112,0.0


## Acceso a los elementos


In [23]:
personas

Unnamed: 0,cumpleaños,hobby,peso,hijos
alice,1985,Pintura,68,
bob,1984,Baile,83,3.0
charles,1992,,112,0.0


El atributo `loc` permite acceder a las filas en lugar de a las columnas. El resultado es un objeto `Series` en el que los nombres de columna del `DataFrame` se asignan como etiquetas de fila:

In [24]:
personas.loc["charles"]

cumpleaños    1992
hobby          NaN
peso           112
hijos          0.0
Name: charles, dtype: object

También puede acceder a las filas mediante índices utilizando el atributo `iloc`:

In [25]:
personas.iloc[2]

cumpleaños    1992
hobby          NaN
peso           112
hijos          0.0
Name: charles, dtype: object

También se puede hacer un slice de las filas, y esto devuelve un objeto `DataFrame`:

In [26]:
personas.iloc[1:3]

Unnamed: 0,cumpleaños,hobby,peso,hijos
bob,1984,Baile,83,3.0
charles,1992,,112,0.0


**Usando el segundo eje, accedemos a las columnas**

In [27]:
personas.loc["alice":"bob", "cumpleaños":"peso"]

Unnamed: 0,cumpleaños,hobby,peso
alice,1985,Pintura,68
bob,1984,Baile,83


In [28]:
personas.iloc[[0,2], [0,3]]

Unnamed: 0,cumpleaños,hijos
alice,1985,
charles,1992,0.0


**más rápido cuando se quiere un único valor**

In [29]:
personas.at["bob", "hobby"]

'Baile'

In [30]:
personas.iat[1,1]

'Baile'

## Agregar y remover columnas


In [31]:
personas

Unnamed: 0,cumpleaños,hobby,peso,hijos
alice,1985,Pintura,68,
bob,1984,Baile,83,3.0
charles,1992,,112,0.0


In [32]:
personas["edad"] = 2024 - personas["cumpleaños"]

In [33]:
personas["mayores a 35"] = personas["edad"] > 35
personas

Unnamed: 0,cumpleaños,hobby,peso,hijos,edad,mayores a 35
alice,1985,Pintura,68,,39,True
bob,1984,Baile,83,3.0,40,True
charles,1992,,112,0.0,32,False


In [34]:
cumples = personas.pop("cumpleaños")
cumples

alice      1985
bob        1984
charles    1992
Name: cumpleaños, dtype: int64

In [35]:
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35
alice,Pintura,68,,39,True
bob,Baile,83,3.0,40,True
charles,,112,0.0,32,False


Cuando se añade una nueva columna, ésta debe tener el mismo número de filas. Las filas que faltan se rellenan con NaN y las que sobran se ignoran:

In [36]:
personas["mascotas"] = pd.Series({"bob": 0, "charles": 5, "eugene": 1})
personas

Unnamed: 0,hobby,peso,hijos,edad,mayores a 35,mascotas
alice,Pintura,68,,39,True,
bob,Baile,83,3.0,40,True,0.0
charles,,112,0.0,32,False,5.0


Al añadir una nueva columna, por defecto se añade al final (a la derecha). También se puede insertar una columna en cualquier otro lugar utilizando el método `insert()`:

In [37]:
personas.insert(1, "altura", [172, 181, 185])
personas

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas
alice,Pintura,172,68,,39,True,
bob,Baile,181,83,3.0,40,True,0.0
charles,,185,112,0.0,32,False,5.0


## Asignando valores


In [38]:
nueva_columna = pd.Series([True, False, True], index=["alice","bob","charles"])
personas['fumador'] = nueva_columna # La etiqueta de la columna se define en la asignación
personas

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador
alice,Pintura,172,68,,39,True,,True
bob,Baile,181,83,3.0,40,True,0.0,False
charles,,185,112,0.0,32,False,5.0,True


In [39]:
personas.loc[:, 'nro_trabajos'] = np.array([2, 1, 3])
personas

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos
alice,Pintura,172,68,,39,True,,True,2
bob,Baile,181,83,3.0,40,True,0.0,False,1
charles,,185,112,0.0,32,False,5.0,True,3


### Cuidado

In [40]:
nueva_columna2 = pd.Series([True, False, True])
personas['gimnasio'] = nueva_columna2 # La etiqueta de la columna se define en la asignación
personas

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
alice,Pintura,172,68,,39,True,,True,2,
bob,Baile,181,83,3.0,40,True,0.0,False,1,
charles,,185,112,0.0,32,False,5.0,True,3,


In [41]:
personas.pop("jobs")

KeyError: 'jobs'

In [42]:
personas.at[ 'alice', "nro_trabajos"] = 1
personas

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
alice,Pintura,172,68,,39,True,,True,1,
bob,Baile,181,83,3.0,40,True,0.0,False,1,
charles,,185,112,0.0,32,False,5.0,True,3,


In [43]:
personas.iat[0, 8] = 2
personas

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
alice,Pintura,172,68,,39,True,,True,2,
bob,Baile,181,83,3.0,40,True,0.0,False,1,
charles,,185,112,0.0,32,False,5.0,True,3,


#### Filtrar datos usando expresiones lógicas

In [44]:
personas

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
alice,Pintura,172,68,,39,True,,True,2,
bob,Baile,181,83,3.0,40,True,0.0,False,1,
charles,,185,112,0.0,32,False,5.0,True,3,


In [45]:
personas[personas['hobby'] == 'Baile']

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
bob,Baile,181,83,3.0,40,True,0.0,False,1,


In [46]:
personas[(personas['hobby'] == 'Baile') | (personas['hobby'] == 'Pintura')]

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
alice,Pintura,172,68,,39,True,,True,2,
bob,Baile,181,83,3.0,40,True,0.0,False,1,


In [47]:
personas[personas['edad'] > 35]

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
alice,Pintura,172,68,,39,True,,True,2,
bob,Baile,181,83,3.0,40,True,0.0,False,1,


## Ordenar un `DataFrame`
Se puede ordenar un `DataFrame` llamando a su método `sort_index`. Por defecto, ordena las filas mediante sus etiquetas, en orden ascendente:

In [48]:
personas

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
alice,Pintura,172,68,,39,True,,True,2,
bob,Baile,181,83,3.0,40,True,0.0,False,1,
charles,,185,112,0.0,32,False,5.0,True,3,


In [49]:
personas.sort_index(ascending=False)

Unnamed: 0,hobby,altura,peso,hijos,edad,mayores a 35,mascotas,fumador,nro_trabajos,gimnasio
charles,,185,112,0.0,32,False,5.0,True,3,
bob,Baile,181,83,3.0,40,True,0.0,False,1,
alice,Pintura,172,68,,39,True,,True,2,


`sort_index` devuelve una *copia* ordenada del `DataFrame`. Para modificar el dataframe `personas` directamente, podemos fijar el parámetro `inplace` a `True`. Además, podemos ordenar las columnas en lugar de las filas estableciendo `axis=1`:

In [51]:
personas.sort_index(axis=1, inplace=True)
personas

Unnamed: 0,altura,edad,fumador,gimnasio,hijos,hobby,mascotas,mayores a 35,nro_trabajos,peso
alice,172,39,True,,,Pintura,,True,2,68
bob,181,40,False,,3.0,Baile,0.0,True,1,83
charles,185,32,True,,0.0,,5.0,False,3,112


Para ordenar el `DataFrame` por los valores en lugar de sus etiquetas, podemos utilizar `sort_values` y especificar la columna por la cual ordenar:

In [52]:
personas.sort_values(by="edad", inplace=True)
personas

Unnamed: 0,altura,edad,fumador,gimnasio,hijos,hobby,mascotas,mayores a 35,nro_trabajos,peso
charles,185,32,True,,0.0,,5.0,False,3,112
alice,172,39,True,,,Pintura,,True,2,68
bob,181,40,False,,3.0,Baile,0.0,True,1,83


## Operaciones con `DataFrame`s


In [53]:
arreglo_notas = np.array([[8, 8, 9], [10, 9, 9], [4, 8, 2], [9, 10, 10]])
notas = pd.DataFrame(arreglo_notas, columns=["sep", "oct", "nov"], index=["alice", "bob", "charles", "darwin"])
notas

Unnamed: 0,sep,oct,nov
alice,8,8,9
bob,10,9,9
charles,4,8,2
darwin,9,10,10


Se pueden aplicar funciones matemáticas de NumPy en un `DataFrame`: la función se aplica a todos los valores:

In [54]:
np.sqrt(notas)

Unnamed: 0,sep,oct,nov
alice,2.828427,2.828427,3.0
bob,3.162278,3.0,3.0
charles,2.0,2.828427,1.414214
darwin,3.0,3.162278,3.162278


Al sumar un único valor a un `DataFrame` se suma ese valor a todos los elementos del `DataFrame`.

In [55]:
notas + 1

Unnamed: 0,sep,oct,nov
alice,9,9,10
bob,11,10,10
charles,5,9,3
darwin,10,11,11


Por supuesto, lo mismo ocurre con el resto de operaciones binarias, incluidas las operaciones aritméticas (`*`,`/`,`**`...) y condicionales (`>`, `==`)

In [56]:
notas >= 5

Unnamed: 0,sep,oct,nov
alice,True,True,True
bob,True,True,True
charles,False,True,False
darwin,True,True,True


In [57]:
notas

Unnamed: 0,sep,oct,nov
alice,8,8,9
bob,10,9,9
charles,4,8,2
darwin,9,10,10


Las operaciones de agregación como calcular el `máximo`, la `suma` o la `media` de un `DataFrame`, se aplican a cada columna, y se obtiene un objeto `Series`:

In [58]:
notas.mean()

sep    7.75
oct    8.75
nov    7.50
dtype: float64

El método `all` también es una operación de agregación: comprueba si *todos* los valores son `True` o no. Veamos durante qué meses todos los alumnos obtuvieron una nota superior a `5`:

In [59]:
(notas > 5).all()

sep    False
oct     True
nov    False
dtype: bool

✅ La mayoría de estas funciones toman un parámetro opcional `axis` que permite especificar a lo largo de qué eje del `DataFrame` desea que se ejecute la operación. El valor por defecto es `axis=0`, lo que significa que la operación se ejecuta en cada columna. Puede establecer `axis=1` para aplicar la operación horizontalmente (en cada fila). Por ejemplo, averigüemos qué alumnos tienen todas las notas superiores a `5`:


In [60]:
(notas > 5).all(axis=1)

alice       True
bob         True
charles    False
darwin      True
dtype: bool

El método `any` devuelve `True` si algún valor es True. Veamos quién tiene al menos una nota 10:

In [61]:
(notas == 10).any(axis=1)

alice      False
bob         True
charles    False
darwin      True
dtype: bool

Si se suma o resta un objeto `Series` a un `DataFrame` (o se aplica cualquier otra operación binaria), pandas intenta aplicar la operación a todas las *filas* del `DataFrame`. Esto sólo funciona si la `Serie` tiene el mismo tamaño que las filas del `DataFrame`. Por ejemplo, vamos a restar la media del `DataFrame` (un objeto `Series`) al `DataFrame`:

In [62]:
notas - notas.mean()  # notas - [7.75, 8.75, 7.50]

Unnamed: 0,sep,oct,nov
alice,0.25,-0.75,1.5
bob,2.25,0.25,1.5
charles,-3.75,-0.75,-5.5
darwin,1.25,1.25,2.5


Restamos `7,75` a todas las notas de septiembre, `8,75` a las de octubre y `7,50` a las de noviembre.

## Manejo de datos faltantes
Tratar con datos faltantes es una tarea frecuente cuando se trabaja con datos reales. Pandas ofrece algunas herramientas para manejar estos datos.

Intentemos solucionar el problema anterior. Por ejemplo, podemos decidir que los datos que falten den como resultado un cero, en lugar de `NaN`. Podemos sustituir todos los valores `NaN` por cualquier valor utilizando el método `fillna()`:

In [63]:
notas

Unnamed: 0,sep,oct,nov
alice,8,8,9
bob,10,9,9
charles,4,8,2
darwin,9,10,10


In [64]:
arreglo_bonus = np.array([[0, np.nan, 2], [np.nan, 1, 0], [0, 1, 0], [3, 3, 0]])
bonus = pd.DataFrame(arreglo_bonus, columns=["oct", "nov", "dec"], index=["bob", "colin", "darwin", "charles"])
bonus

Unnamed: 0,oct,nov,dec
bob,0.0,,2.0
colin,,1.0,0.0
darwin,0.0,1.0,0.0
charles,3.0,3.0,0.0


In [65]:
notas + bonus

Unnamed: 0,dec,nov,oct,sep
alice,,,,
bob,,,9.0,
charles,,5.0,11.0,
colin,,,,
darwin,,11.0,10.0,


In [66]:
(notas + bonus).fillna(0)

Unnamed: 0,dec,nov,oct,sep
alice,0.0,0.0,0.0,0.0
bob,0.0,0.0,9.0,0.0
charles,0.0,5.0,11.0,0.0
colin,0.0,0.0,0.0,0.0
darwin,0.0,11.0,10.0,0.0


Sin embargo, es un poco injusto que pongamos las notas a cero en septiembre. Quizá deberíamos decidir que las notas que faltan son notas faltantes, pero los puntos extra que faltan deberían sustituirse por ceros:

In [67]:
puntos_bonus = bonus.fillna(0)
puntos_bonus.insert(0, "sep", 0)
puntos_bonus

Unnamed: 0,sep,oct,nov,dec
bob,0,0.0,0.0,2.0
colin,0,0.0,1.0,0.0
darwin,0,0.0,1.0,0.0
charles,0,3.0,3.0,0.0


In [68]:
notas

Unnamed: 0,sep,oct,nov
alice,8,8,9
bob,10,9,9
charles,4,8,2
darwin,9,10,10


In [70]:
puntos_bonus.loc["alice"] = 0
notas + puntos_bonus

Unnamed: 0,dec,nov,oct,sep
alice,,9.0,8.0,8.0
bob,,9.0,9.0,10.0
charles,,5.0,11.0,4.0
colin,,,,
darwin,,11.0,10.0,9.0


Eso está mucho mejor: aunque inventamos algunos datos, no fuimos injustos.

## Concatenación de `DataFrames`

In [71]:
ciudades = pd.DataFrame(
    [
        ["CA", "San Francisco", 37.781334, -122.416728],
        ["NY", "New York", 40.705649, -74.008344],
        ["FL", "Miami", 25.791100, -80.320733],
        ["OH", "Cleveland", 41.473508, -81.739791],
        ["UT", "Salt Lake City", 40.755851, -111.896657]
    ], columns=["estado", "ciudad", "lat", "lng"])
ciudades

Unnamed: 0,estado,ciudad,lat,lng
0,CA,San Francisco,37.781334,-122.416728
1,NY,New York,40.705649,-74.008344
2,FL,Miami,25.7911,-80.320733
3,OH,Cleveland,41.473508,-81.739791
4,UT,Salt Lake City,40.755851,-111.896657


In [72]:
ciudades_2 = pd.DataFrame(
    [
        [808976, "San Francisco", "California"],
        [8363710, "New York", "New-York"],
        [413201, "Miami", "Florida"],
        [2242193, "Houston", "Texas"]
    ], index=[3,4,5,6], columns=["poblacion", "ciudad", "estado"])
ciudades_2

Unnamed: 0,poblacion,ciudad,estado
3,808976,San Francisco,California
4,8363710,New York,New-York
5,413201,Miami,Florida
6,2242193,Houston,Texas


In [73]:
ciudades_concat = pd.concat([ciudades, ciudades_2])
ciudades_concat

Unnamed: 0,estado,ciudad,lat,lng,poblacion
0,CA,San Francisco,37.781334,-122.416728,
1,NY,New York,40.705649,-74.008344,
2,FL,Miami,25.7911,-80.320733,
3,OH,Cleveland,41.473508,-81.739791,
4,UT,Salt Lake City,40.755851,-111.896657,
3,California,San Francisco,,,808976.0
4,New-York,New York,,,8363710.0
5,Florida,Miami,,,413201.0
6,Texas,Houston,,,2242193.0


Observe que esta operación alinea los datos horizontalmente (por columnas) pero no verticalmente (por filas). En este ejemplo, acabamos con varias filas que tienen el mismo índice (por ejemplo, 3).

In [75]:
ciudades_concat.loc[3]

Unnamed: 0,estado,ciudad,lat,lng,poblacion
3,OH,Cleveland,41.473508,-81.739791,
3,California,San Francisco,,,808976.0


O podemos decirle a pandas que ignore el índice:

In [76]:
pd.concat([ciudades, ciudades_2], ignore_index=True)

Unnamed: 0,estado,ciudad,lat,lng,poblacion
0,CA,San Francisco,37.781334,-122.416728,
1,NY,New York,40.705649,-74.008344,
2,FL,Miami,25.7911,-80.320733,
3,OH,Cleveland,41.473508,-81.739791,
4,UT,Salt Lake City,40.755851,-111.896657,
5,California,San Francisco,,,808976.0
6,New-York,New York,,,8363710.0
7,Florida,Miami,,,413201.0
8,Texas,Houston,,,2242193.0


Observe que cuando una columna no existe en un `DataFrame`, es como si estuviera lleno de valores `NaN`. Si establecemos `join="inner"`, sólo se devolverán las columnas que existan en ambos `DataFrame`:

In [77]:
pd.concat([ciudades, ciudades_2], join="inner")

Unnamed: 0,estado,ciudad
0,CA,San Francisco
1,NY,New York
2,FL,Miami
3,OH,Cleveland
4,UT,Salt Lake City
3,California,San Francisco
4,New-York,New York
5,Florida,Miami
6,Texas,Houston


Se pueden concatenar `DataFrame`s horizontalmente en lugar de verticalmente estableciendo `axis=1`:

In [78]:
pd.concat([ciudades, ciudades_2], axis=1)

Unnamed: 0,estado,ciudad,lat,lng,poblacion,ciudad.1,estado.1
0,CA,San Francisco,37.781334,-122.416728,,,
1,NY,New York,40.705649,-74.008344,,,
2,FL,Miami,25.7911,-80.320733,,,
3,OH,Cleveland,41.473508,-81.739791,808976.0,San Francisco,California
4,UT,Salt Lake City,40.755851,-111.896657,8363710.0,New York,New-York
5,,,,,413201.0,Miami,Florida
6,,,,,2242193.0,Houston,Texas


En este caso no tiene mucho sentido porque los índices no se alinean bien (por ejemplo, Cleveland y San Francisco acaban en la misma fila, porque compartían la etiqueta de índice `3`). Así que vamos a reindexar el `DataFrame` por nombre de ciudad antes de concatenar:

In [79]:
ciudades.set_index("ciudad")

Unnamed: 0_level_0,estado,lat,lng
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
San Francisco,CA,37.781334,-122.416728
New York,NY,40.705649,-74.008344
Miami,FL,25.7911,-80.320733
Cleveland,OH,41.473508,-81.739791
Salt Lake City,UT,40.755851,-111.896657


In [80]:
pd.concat([ciudades.set_index("ciudad"), ciudades_2.set_index("ciudad")], axis=1)

Unnamed: 0_level_0,estado,lat,lng,poblacion,estado
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
San Francisco,CA,37.781334,-122.416728,808976.0,California
New York,NY,40.705649,-74.008344,8363710.0,New-York
Miami,FL,25.7911,-80.320733,413201.0,Florida
Cleveland,OH,41.473508,-81.739791,,
Salt Lake City,UT,40.755851,-111.896657,,
Houston,,,,2242193.0,Texas


## Guardar y cargar dataframes

In [81]:
import sys
if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/drive')
    %cd '/content/drive/MyDrive/Inteligencia Artificial/IA - Clases de Práctica/ContenidosPorTemas'
    print('google.colab')

podemos guardarlo en CSV, HTML y JSON:

In [83]:
ciudades.to_csv("./1_datos/ciudades.csv")
ciudades.to_html("./1_datos/ciudades.html")
ciudades.to_json("./1_datos/ciudades.json")

Para cagarlo desde un csv

In [84]:
df = pd.read_csv("./1_datos/ciudades.csv", index_col=0)
df

Unnamed: 0,estado,ciudad,lat,lng
0,CA,San Francisco,37.781334,-122.416728
1,NY,New York,40.705649,-74.008344
2,FL,Miami,25.7911,-80.320733
3,OH,Cleveland,41.473508,-81.739791
4,UT,Salt Lake City,40.755851,-111.896657
