<p><img alt="banner" height="252px" width="1080px" src="https://docs.google.com/uc?export=download&id=1YJrz-tzQUkofEE37sRUdlCbnXf10gJlF"  align="center" hspace="10px" vspace="0px"></p>


# <font color='056938'> **Introducción** </font>

---
`Pandas` es una librería  destinada al análisis de datos, que proporciona  estructuras de datos flexibles y que permiten trabajar con ellos de forma muy eficiente, muy  similares a los dataframes de `R`. Pandas depende de `Numpy`, la librería que añade un potente tipo matricial a Python. Los principales tipos de datos que pueden representarse con pandas son:

* `Series` temporales.
* `Dataframes` o Datos tabulares con columnas de tipo heterogéneo con etiquetas en columnas y filas.

![](https://docs.google.com/uc?export=download&id=1a1GF9-Y50bA4O-c0H3NhFUHOSeu1wVfU)



# <font color='056938'> **instalación** </font>

---

Pandas usualmente se importa usando `pd` como `alias`, es decir:



In [20]:
import pandas as pd
import numpy as np

# <font color='056938'> **Creación de series** </font>
---
El método básico para crear una `Serie` en `pandas` es:


```python
s = pd.Series(data, index=index)
```
En donde `data` puede ser:
* Un diccionario
* Un  arreglo de numpy (`ndarray`)
* Un valor escalar (ej. 5)


El índice (`index`) es una etiqueta única asignada a cada elemento de la serie. Por defecto, el índice se establece automáticamente como una secuencia de números enteros consecutivos que comienzan en cero. Sin embargo, el índice puede ser (ej. cadenas, fechas, números enteros y otros tipos de datos).


In [2]:
s = pd.Series([10, 20, 30])
s

0    10
1    20
2    30
dtype: int64

In [3]:
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
s

a    10
b    20
c    30
dtype: int64

Las series tambien pueden crearse desde diccionarios. En este caso <ins>las claves del diccionario se convierten en los índices</ins> de la serie, y <ins>los respectivos valores de cada clave se convierten los valores de la serie</ins>:

In [4]:
datos = {'Antioquia':5974788, 'Magdalena':1263788, 'Atlántico':2342265, 'Quindío':509640}
serie = pd.Series(datos)
serie

Antioquia    5974788
Magdalena    1263788
Atlántico    2342265
Quindío       509640
dtype: int64

Cuando se especifican los índices, y alguno no corresponde a una clave del diccionario, se crea una valor no definido: `NaN`

In [5]:
datos = {'Antioquia':5974788, 'Magdalena':1263788, 'Atlántico':2342265, 'Quindío':509640}
dptos = ['Antioquia', 'Magdalena', 'Atlántico', 'Amazonas']
serie = pd.Series(datos, index=dptos)
serie

Antioquia    5974788.0
Magdalena    1263788.0
Atlántico    2342265.0
Amazonas           NaN
dtype: float64

# <font color='056938'> **Creación de dataframes** </font>

---

Pandas permite la creación de dataframes ingresando directamente los datos desde estructuras básicas de python como listas o diccionarios o mediante la lectura de distintos tipos de archivos.



## <font color='8EC044'> **Crear desde listas y diccionarios** </font>

Considere el caso en el que tenemos tres listas con los nombres, edades y estatura de algunas personas:



In [7]:
nombres = ['Pablo', 'Carolina', 'Juan', 'Diana']
edades = [43, 37, 45, 19]
estaturas = [174, 170, 185, 163]

Creamos un dataframe `df` con ellas usando la función `DataFrame` y pasando como argumento un diccionario con el nombre que queremos dar a cada columna y la lista correspondiente:

In [8]:
df = pd.DataFrame(
    {
        "nombre": nombres,
        "edad": edades,
        "estatura": estaturas
    }
)
df

Unnamed: 0,nombre,edad,estatura
0,Pablo,43,174
1,Carolina,37,170
2,Juan,45,185
3,Diana,19,163


Similarmente si tenemos la información en un diccionario, creamos el dataframe de la siguiente manera:

In [9]:
datos = {'nombre' : ['Pablo', 'Carolina', 'Juan', 'Diana'],
         'edad' : [43, 37, 45, 19],
         'estatura' : [174, 170, 185, 163]}

df = pd.DataFrame(datos)
df

Unnamed: 0,nombre,edad,estatura
0,Pablo,43,174
1,Carolina,37,170
2,Juan,45,185
3,Diana,19,163


### <font color='157699'> **Ejercicio 1** </font>

Cree un dataframe que contenga los nombres de las asignaturas que cursa este semestre, su código, horario y número de créditos:

In [None]:
# Ingrese su respuesta aquí



# <font color='056938'> **Leer desde archivos** </font>

Pandas ofrece la posibilidad de leer archivos de muy diversos formatos (e.g., `.csv`, `.xlsx`, `.json`) y fuentes (`SQL`, `BigQuery`).





| Función | Descripción |
|---------|-------------|
| `pd.read_csv()` | Leer datos desde archivos CSV y cargarlos en un DataFrame de Pandas |
| `pd.read_excel()` | Leer datos desde archivos de Excel y cargarlos en un DataFrame de Pandas |
| `pd.read_json()` | Leer datos desde archivos JSON y cargarlos en un DataFrame de Pandas |
| `pd.read_html()` | Leer datos de tablas HTML y cargarlos en un DataFrame de Pandas |
| `pd.read_sql()` | Leer datos desde bases de datos SQL y cargarlos en un DataFrame de Pandas |
| `pd.read_clipboard()` | Leer datos desde el portapapeles del sistema y cargarlos en un DataFrame de Pandas |


### <font color='157699'> **Valores separados por comas** </font>

Los archivos con extensión CSV (En inglés *Comma Separated Values*) son un tipo de documento de texto plano para almacenar datos en forma de tabla, en las que las columnas se separan por comas, puntos o puntos y coma (dependiendo del país); y las filas por saltos de línea.

El formato CSV no está estandarizado. La idea básica de separar los campos con una coma es muy clara, pero se vuelve complicada cuando el valor del campo también contienen comillas dobles, caracteres, saltos de línea o secuencias de escape.

Algunas veces, en los archivos CSV, se usan delimitadores diferentes como los tabuladores. Estos archivos separados por delimitadores alternativos reciben en algunas ocasiones la extensión aunque este uso sea incorrecto. Esto puede causar problemas en el intercambio de datos, por ello, en muchas aplicaciones existe la opción de cambiar el carácter delimitador por defecto.

[Basado en "Valores separados por comas", Wikipedia](https://es.wikipedia.org/wiki/Valores_separados_por_comas)

<font color='46B8A9'> **Ejemplo** </font>

| Año  | Marca  | Modelo         | Descripción                          | Precio          |
| ---- | ------ | -------------- | ------------------------------------ | --------------- |
| 1997 | Ford   | E350           | ac, ABS, moon                        | 3000.00         |
| 1999 | Chevy  | Venture        | Extended Edition                     | 4900.00         |
| 1999 | Chevyr | Venture        | Extended Edition, Very Large         | 5000.00         |
| 1996 | Jeep   | Grand Cherokee | MUST SELL!<br>air, moon roof, loaded | 4799.00<br><br> |

La tabla de arriba puede ser representada de la siguiente forma con un archivo CSV:

```
Año,Marca,Modelo,Descripción,Precio
1997,Ford,E350,"ac, ABS, moon",3000.00
1999,Chevy,Venture,Extended Edition,4900.00
1999,Chevyr,Venture,"Extended Edition, Very Large",5000.00
1996,Jeep,Grand Cherokee,"MUST SELL! air, moon roof, loaded",4799.00
```

### <font color='157699'> **JSON - JavaScript Object Notation** </font>

La notación de objetos de JavaScript (Javascript Object Notation) es una forma popular de formatear datos como una sola cadena legible de texto para el intercambio de datos. JSON es la forma nativa en que los programas JavaScript escriben sus estructuras de datos. Se trata de un subconjunto de la notación literal de objetos de JavaScript, aunque, debido a su amplia adopción, se considera un formato independiente del lenguaje.

<font color='46B8A9'> **Ejemplo** </font>


No es necesario saber programar en JavaScript para trabajar con datos con formato JSON. A continuación hay hay un ejemplo de datos formateados como JSON:


```python
{
    "nombre": "Juan",
    "edad": 25,
    "profesion": "Ingeniero",
    "intereses": ["programación", "deportes", "viajes"],
    "direccion": {
        "calle": "Calle Falsa",
        "numero": 123,
        "ciudad": "Ciudad Ficticia"
    }
}
```

In [10]:
# Acceder a un registro

import json

datos = {
    "nombre": "Juan",
    "edad": 25,
    "profesion": "Ingeniero",
    "intereses": ["programación", "deportes", "viajes"],
    "direccion": {
        "calle": "Calle Falsa",
        "numero": 123,
        "ciudad": "Ciudad Ficticia"
    }
}

# Exportar el diccionario como archivo JSON
with open('datos.json', 'w') as archivo:
    json.dump(datos, archivo)




In [11]:
# Acceder a datos en un json
datos['direccion']['ciudad']

'Ciudad Ficticia'

Entender JSON resulta muy útil, ya que muchos sitios web proporcionan contenido en este formato para permitir que los programas interactúen con el sitio. A esto se le conoce como una interfaz de programación de aplicaciones (API).

Acceder a una API es similar a acceder a cualquier otra página web a través de una URL, con la única diferencia de que los datos que devuelve una API están formateados específicamente para que las máquinas puedan leerlos, utilizando por ejemplo el formato JSON.

### <font color='157699'> **Ejemplo** </font>

En nuestro caso cargaremos al notebook un archivo en dos formatos diferentes, separado por comas (`.csv`) y excel (`.xlsx`). Con los datos leidos crearemos el dataframe.

El archivo corresponde a la penetración de puntos fijos de internet por Departamento en Colombia para el año 2019


El siguiente script hace uso de la función `gdwon` para acceder directamente los archivos desde google drive (asumiendo que estos son de acceso público):

In [12]:
# Leer el archivo desde drive
!gdown --id 1di4HbwBK5uaZ6LzceFoTI719Zm_vFqYu # lee el archivo csv
!gdown --id 17IeVwDnYELGmf3ZrLYzznpYwas8uMQfN # lee el archivo xlsx


Downloading...
From: https://drive.google.com/uc?id=1di4HbwBK5uaZ6LzceFoTI719Zm_vFqYu
To: /content/InternetDptos.csv
100% 522k/522k [00:00<00:00, 82.4MB/s]
Downloading...
From: https://drive.google.com/uc?id=17IeVwDnYELGmf3ZrLYzznpYwas8uMQfN
To: /content/InternetDptos.xlsx
100% 631k/631k [00:00<00:00, 99.0MB/s]


Ahora creamos un dataframe llamado internet con los datos en el archivo `InternetDptos.csv` que esta en formato `csv` usando la funcion `read_csv()`

In [13]:
internet = pd.read_csv("InternetDptos.csv")
internet

Unnamed: 0,ANO,TRIMESTRE,DEPARTAMENTO,MUNICIPIO,No. ACCESOS FIJOS A INTERNET,POBLACION DANE,No. INSTITUCIONES
0,2019,4,CHOCO,BOJAYA,40,12212,13
1,2020,1,VAUPES,CARURU,11,3201,4
2,2019,4,SANTANDER,VALLE DE SAN JOSE,28,6222,7
3,2018,4,SANTANDER,SIMACOTA,87,10042,11
4,2018,4,SUCRE,CAIMITO,13,15231,15
...,...,...,...,...,...,...,...
13459,2020,2,ANTIOQUIA,VALDIVIA,750,14102,15
13460,2017,3,CAUCA,VILLA RICA,0,16596,17
13461,2020,2,SANTANDER,AGUADA,14,1867,2
13462,2018,2,SANTANDER,SUCRE,0,7202,8


El mismo dataframe puede crearse desde el archivo de excel `InternetDptos.xlsx` usando la funcion `read_excel()`.

In [14]:
internet = pd.read_excel("InternetDptos.xlsx")
internet

Unnamed: 0,ANO,TRIMESTRE,DEPARTAMENTO,MUNICIPIO,No. ACCESOS FIJOS A INTERNET,POBLACION DANE,No. INSTITUCIONES
0,2019,4,CHOCO,BOJAYA,40,12212,13
1,2020,1,VAUPES,CARURU,11,3201,4
2,2019,4,SANTANDER,VALLE DE SAN JOSE,28,6222,7
3,2018,4,SANTANDER,SIMACOTA,87,10042,11
4,2018,4,SUCRE,CAIMITO,13,15231,15
...,...,...,...,...,...,...,...
13459,2020,2,ANTIOQUIA,VALDIVIA,750,14102,15
13460,2017,3,CAUCA,VILLA RICA,0,16596,17
13461,2020,2,SANTANDER,AGUADA,14,1867,2
13462,2018,2,SANTANDER,SUCRE,0,7202,8


A continuación se resumen algunas de las formas más empleadas para crear DataFrames en Pandas:

| Método | Ejemplo |
| --- | --- |
| Desde una lista de listas | `import pandas as pd`<br>`datos = [[1, 'a'], [2, 'b'], [3, 'c']]`<br>`df = pd.DataFrame(datos, columns=['num', 'letra'])` |
| Desde un diccionario de listas | `import pandas as pd`<br>`datos = {'num': [1, 2, 3], 'letra': ['a', 'b', 'c']}`<br>`df = pd.DataFrame(datos)` |
| Desde una lista de diccionarios | `import pandas as pd`<br>`datos = [{'num': 1, 'letra': 'a'}, {'num': 2, 'letra': 'b'}, {'num': 3, 'letra': 'c'}]`<br>`df = pd.DataFrame(datos)` |
| Desde un archivo CSV | `import pandas as pd`<br>`df = pd.read_csv('datos.csv')` |
| Desde un archivo Excel | `import pandas as pd`<br>`df = pd.read_excel('datos.xlsx', sheet_name='Sheet1')` |
| Desde una URL de un archivo CSV | `import pandas as pd`<br>`url = 'https://ejemplo.com/datos.csv'`<br>`df = pd.read_csv(url)` |
| Desde una tabla HTML | `import pandas as pd`<br>`url = 'https://ejemplo.com/datos.html'`<br>`df = pd.read_html(url)[0]` |


# <font color='056938'> **Operando con series** </font>


## <font color='8EC044'>**Atributos**

Características principales de las series: algunas son métodos específicos de este tipo de datos, y otros coinciden con funciones generales de Python.

### <font color='157699'>**Valores de una serie**</font>

Se usa el método `values`, y el resultado es un <u>arreglo unidimensional simple</u>.

In [15]:
serie.values

array([5974788., 1263788., 2342265.,      nan])

In [16]:
serie.values[2]

2342265.0

### <font color='157699'>**Índices**</font>

Éstos se obtienen mediante el método `index`. Cuando los índices se generan de forma automática, o mediante la función `range`, el método `index` da como resultado un rango, lo cual no es propieamente un arreglo de datos unidimensional:

In [17]:
serie.index

Index(['Antioquia', 'Magdalena', 'Atlántico', 'Amazonas'], dtype='object')

Los índices se pueden llevar a una lista o vector:

In [18]:
lista = list(serie.index)
lista

['Antioquia', 'Magdalena', 'Atlántico', 'Amazonas']

In [21]:

arreglo = np.array(serie.index)
arreglo

array(['Antioquia', 'Magdalena', 'Atlántico', 'Amazonas'], dtype=object)

### <font color='157699'>**Cantidad de elemento**s</font>

La cantidad de elementos en una serie también se determina mediante la función `len`.

In [22]:
len(serie)

4

Cuando se crea una serie a partir de una variable que es un arreglo unidimensional mutable, cualquier cambio posterior en dicho arreglo se verá reflejado en la serie:

In [23]:
arreglo = np.array([1,2,3,4])
serie = pd.Series(arreglo)
serie

0    1
1    2
2    3
3    4
dtype: int64

Cambiamos un elemento del arreglo

In [24]:
arreglo[2] = 0
arreglo

array([1, 2, 0, 4])

In [25]:
serie

0    1
1    2
2    0
3    4
dtype: int64

## <font color='8EC044'> **Indexación**

Cuando se crea un serie **es posible especificar los índices** que se desean, los cuales **pueden ser de diferentes tipos de datos**.

In [26]:
serie = pd.Series([4,7,-5,3],index=['b', 'd', 'a', 14])
serie

b     4
d     7
a    -5
14    3
dtype: int64

In [27]:
serie.values

array([ 4,  7, -5,  3])

Cuando los índices se especifican y son de carácter genérico, el resultado del método `index` es una estructura de datos similar a una lista:

In [28]:
serie.index

Index(['b', 'd', 'a', 14], dtype='object')

In [29]:
type(serie.index)

pandas.core.indexes.base.Index

In [30]:
serie.index[2]

'a'

Al tener índices flexibles, la indexación se hace con base en dichos indices:

In [31]:
serie['a']

-5

In [32]:
serie[14]

3

Las series son estructuras de datos heterogéneas y mutables, es decir, que se puede modificar el valor de sus elementos, siempre que se use el índice respectivo:

In [33]:
serie

b     4
d     7
a    -5
14    3
dtype: int64

In [34]:
serie[14] = 'Nuevo valor'
serie

b               4
d               7
a              -5
14    Nuevo valor
dtype: object

Cuando se tienen **índices con diferentes tipos de datos**, es necesario usar el método `.loc` para indicar los índices:

In [None]:
serie.loc[14] = 'Nuevo valor'
serie

La indexación se puede hacer de forma similar a como se hace con listas y arreglos, cuando los índices son rangos numéricos.

In [None]:
serie = pd.Series([12, -4, 7, 9])
serie

In [None]:
serie[1:3]

Cuando se tienen índices de tipo general, se debe dar como argumento una lista con los índices que se desea extraer:

In [None]:
serie = pd.Series([4,7,-5,3],index=['b', 'd', 'a', 14])
serie

In [None]:
serie[[14, 'b']]

Nótese que se extrae tanto el valor como su índice

**Nota:** A pesar de tener indexación flexible, <u>las series siempre ofrecen la posibilidad de indexación numérica</u>, aún cuando se han definido índices de otro tipo. Esto se hace mediante el método `iloc`.

In [None]:
serie = pd.Series([4,7,-5,3],index=['b', 'd', 'a', 14])
serie

In [None]:
serie.iloc[1]

In [None]:
serie.iloc[-2]

Es posible **cambiar los índices** de una serie existente

In [None]:
serie.index

In [None]:
serie.index = ['b', 'd', 'A', 'c']
serie

## <font color='8EC044'> **Adición de elementos**
    
También es posible añadir elementos a una serie, de forma similar a como se hace con los diccionarios:

In [None]:
serie = pd.Series([4,7,-5,3],index=['b', 'd', 'a', 14])
serie['2do'] = 6
serie

## <font color='8EC044'> **Eliminación de elementos**
    
La eliminación de un elemento de una serie se hace de forma similar al caso de diccionarios

In [None]:
serie

In [None]:
del serie['d']
serie

## <font color='8EC044'> **Exploración: Filtrado de valores mediante condiciones lógicas**</font>

Se trata de una forma de explorar todos los datos de una serie, para extraer datos específicos, usando condiciones lógicas.

In [None]:
serie = pd.Series([4,7,-5,3, -1, -3])
serie

In [None]:
serie[serie < 0]   # Esta condición extrae únicamente los valores negativos

Cuando se deben cumplir varias condiciones, éstas se deben encadenar poniéndolas entre paréntesis, y separándolas con los respectivos operadores lógicos, los cuales son diferentes a los usados normalmente en Python para comparaciones:

- `&` en vez de `and`
- `|` en vez de `or`
- `~` en vez de `not`

In [None]:
serie

In [None]:
serie[(serie > 2) & (serie < 5)]

In [None]:
serie[(serie > 4) | (serie < 0)]

In [None]:
serie[(serie <= 6) & ~ (serie < 0)]

### <font color='157699'>**Ejemplo**</font>

Exploración de una serie con gran cantidad de datos, para buscar grupos de interés particular.

Se crea un vector de 50000 números aleatorios entre 16 y 90, para simular las edades de los estudiantes de una universidad.

In [None]:
edades1 = np.random.randint(16,41,size=45000)
edades2 = np.random.randint(41,91,size=5000)
edades = np.concatenate((edades1, edades2))

In [None]:
len(edades)

Luego se crea una serie a partir del vector de edades. Se crea un índice con números aleatorios que buscan representar el número de documento de los estudiantes.

Cuando se tienen muchos datos, se muestra únicamente el inicio y el fin, con 5 datos en cada caso. Nótese que en la línea final se especifica la cantidad de elementos: `Length: xxx`.

In [None]:
S_edad = pd.Series(edades, index=np.random.randint(1e9,1e9+1e8,size=50000))
S_edad

Para extraer sólo los datos de estudiantes con edades inferiores a 25 años, basta con filtrar con las condición lógica adecuada:

In [None]:
S_edad_25 = S_edad[(S_edad < 25)]
print('En la Universidad hay %d estudiantes en total.' % len(S_edad))
print('De éstos, hay %d menores de 25 años.' % len(S_edad_25))

Para extraer sólo los datos de estudiantes con edades entre 25 y 30 años, se usan las condiciones lógicas adecuadas:

In [None]:
S_edad_2530 = S_edad[(S_edad >= 25) & (S_edad <= 30)]
print('De los %d estudiantes de la universidad, hay %d con edades entre 25 y 30 años.' % (len(S_edad),len(S_edad_2530)))

Adicionalmente de determinar la cantidad de datos en un grupo, se tiene la identificación individual de cada uno de éstos, a través del índice, el cual puede ser, por ejemplo, el número de documento de identidad del estudiante.

In [None]:
S_edad_2530

### <font color='8EC044'> **Operaciones vectorizadas**

Funcionan de forma similar a como sucede con arreglos unidimensionales.

In [None]:
serie = pd.Series([4,7,-5,3, -1, -3])
serie

In [None]:
serie * 2

### <font color='8EC044'>**Asignación de nombre a una serie y a sus índices**

In [None]:
serie

In [None]:
serie.name = 'Población'
serie.index.name = 'Departamento'
serie

## <font color='8EC044'> **Suma de series**

Se usan los índices como referencia para realizar la suma:  Sólo se obtiene un resultado cuando el índice coincide entre las series que se suman:

- Cuando no coinciden los índices, se crea un valor `NaN` en esa posición
- Es posible sumar series de tamaño diferente

In [None]:
serie_a = pd.Series([1,2,3])
serie_b = pd.Series([0,7,8,-1])
print(serie_a, serie_b, sep='\n'*3)

Se puede observar que en ambas series los índices en común son: 0, 1, y 2

In [None]:
serie_a + serie_b

In [None]:
d1 = {'rojo':2000, 'azul':1000, 'amarillo':500, 'naranja':1000}
colores = ['rojo','amarillo','naranja','azul','verde']
serie1 = pd.Series(d1,index=colores)
serie1

In [None]:
d2 = {'rojo':400, 'amarillo':1000, 'negro':700}
serie2 = pd.Series(d2)
serie2

En este caso, los índices en común son: rojo y amarillo.

In [None]:
serie1 + serie2

# <font color='056938'> **Operando con diccionarios** </font>


## <font color='056938'> **Inspeccionar la información** </font>

---

`Pandas` ofrece diversas funciones para explorar los datos contenidos en un dataframe. algunas de ellas son:

| Función            | Descripción                                                                         |
|--------------------|-------------------------------------------------------------------------------------|
| `df.head(n)`       | Devuelve las primeras n filas del DataFrame                                         |
| `df.tail(n)`       | Devuelve las últimas n filas del DataFrame                                          |
| `df.info()`        | Proporciona un resumen del DataFrame, incluyendo los tipos de datos y el uso de memoria |
| `df.describe()`    | Proporciona estadísticas resumidas para las columnas numéricas en el DataFrame      |
| `df.shape`         | Devuelve una tupla que representa las dimensiones del DataFrame (filas, columnas)   |
| `df.columns`       | Devuelve una lista de los nombres de las columnas en el DataFrame                    |
| `df.index`         | Devuelve el índice (etiquetas de fila) del DataFrame                                 |
| `df.dtypes`        | Devuelve los tipos de datos de cada columna en el DataFrame                          |
| `df.isnull().sum()`| Devuelve el número de valores faltantes en cada columna del DataFrame               |
| `df.nunique()`     | Devuelve el número de valores únicos en cada columna del DataFrame                   |


Podemos conocer el número de filas y columnas en el dataframe mediante la propiedad `shape`


In [None]:
# Imprimir número de filas o de columnas
print(internet.shape)


Adicionalmente, podriamos imprimer los primeros o últimos registros usando la instrucción `head()` o `tail()`, respectivamente

In [None]:
# Imprimir primeras filas
internet.head(5)

Es posible inspeccionar el tipo de información que hemos cargado usando usando:
 `dtypes` o `info()`

*   El atributo `dtypes` retorna una serie con el tipo de datos asociado a cada variable en el dataframe
*   La función `info()` provee además información respecto a los elementos no nulos en cada variable



In [None]:
internet.dtypes

In [None]:
internet.info()

## <font color='056938'> **Seleccionar un subconjunto del dataframe** </font>

---
Uno podria estar interesado en seleccionar un subconjunto de una tabla o dataframe. Esto puede implicar seleccionar filas, columnas o ambas. Aunque existen diversas opciones para hacerlo, veremos aquí a modo de ejemplo solo un par de ellas:


### <font color='8EC044'> **Selección de filas/registros** </font>

Existen distintas formas de seleccionar filas, algunos de ellos son:

| Método | Descripción | Ejemplo |
|--------|-------------|---------|
| `loc[]` | Selecciona filas por etiquetas o valores de índice | `df.loc[['a', 'b']]` |
| `iloc[]` | Selecciona filas por posición de índice | `df.iloc[:3]` |
| Operadores de comparación | Selecciona filas que cumplen una condición | `df[df['edad'] > 30]` |
| `query()` | Selecciona filas usando expresiones de consulta | `df.query('edad > 30 and sexo == "Femenino"')` |

Veamos algunos de ellos en detalle

Es posible seleccionar filas usando los comandos `iloc` y `loc`. La primera se basa en los indices de las filas y la segunda en el valor de dichos indices. En este caso como los indices corresponden a la posición, ambas tendran un efecto muy similar.

Note que la función `iloc` retorna las observaciones que estan entre las posiciones 2 y 5 sin incluir.

In [None]:
internet.iloc[2:5]

Por su parte, la función `loc` retorna las observaciones cuyos indices son 2, 3, 4 y 5

In [None]:
internet.loc[2:5]

Adicionalmente, es posible seleccionar registros basados en alguna condición.
Por ejemplo, es posible seleccionar solo los registros cuyo valor en la variable año (`ANO`) es 2019

In [None]:
seleccion = internet[internet['ANO']==2019]
seleccion


### <font color='8EC044'> **Seleccionar columnas** </font>


Al igual que con las filas, es posible seleccionar columnas de diferentes formas:

| Método | Descripción | Ejemplo |
|--------|-------------|---------|
| `[]`   | Selecciona una o varias columnas por nombre | `df['nombre']` o `df[['nombre', 'edad']]` |
| `loc[]` | Selecciona una o varias columnas por etiquetas o valores de índice | `df.loc[:, 'nombre']` o `df.loc[:, ['nombre', 'edad']]` |
| `iloc[]` | Selecciona una o varias columnas por posición de índice | `df.iloc[:, 0]` o `df.iloc[:, [0, 1]]` |
| `filter()` | Selecciona columnas que cumplen una condición | `df.filter(like='n')` o `df.filter(regex='^e')` |
| `select_dtypes()` | Selecciona columnas por tipo de dato | `df.select_dtypes(include=['float'])` |



Los más comunmente empelados son los comandos `iloc` y `loc`. La primera se basa en los indices de las columnas y la segunda en el valor de dichos indices.

Note, que adicionamos `:` como primer argumento de la selección para indicar que queremos todos los registros (filas) para las columnas cuyo indice esta entre el 1 y el 3, sin incluir esta última

In [None]:
seleccion = internet.iloc[:, 1:3]
seleccion

Usando la función `loc` debemos especificar los nombres de las columnas que deseamos extraer.

In [None]:
seleccion = internet.loc[:, "TRIMESTRE":"MUNICIPIO"]
seleccion

Adicionalmente, podemos seleccionar columnas directamente haciendo referencia a su nombre. Considere el dataframe internet que leimos anteiormente, seleccionemos  la columna MUNICIPIOS

In [None]:
municipios = internet["MUNICIPIO"]
municipios

Note que en esta caso en particular la selección correponde a una `Serie`

In [None]:
type(municipios)

De forma similar podriamos seleccionar varias columnas, pasado para ello como argumento un listado de nombres de columnas

In [None]:
df_seleccion = internet[["MUNICIPIO", "POBLACION DANE"]]
df_seleccion

#### <font color='157699'> **Ejercicio 2** </font>
De la información suministrada seleccione las columnas año, municipio y accesos para todos los primeros trimestres de cada año

In [None]:
# Ingrese su respuesta aquí


Repita el ejercicio anterior pero tenga en cuenta que solo seleccione los registros para aquellos municipios que tienen una población mayor a 1000 habitantes

In [None]:
# Ingrese su respuesta aquí



## <font color='056938'> **Operaciones con columnas de un dataframe** </font>

---

Existen una amplia gama de funciones que pueden aplicarse a los dataframe, en particular algunas de ellas aplican a las columnas de un dataframe. Por ejemplo:

| Método | Descripción |
| --- | --- |
| `df['columna'].astype(dtype)` | Convierte la columna a un tipo de dato específico |
| `df['columna'].mean()` | Devuelve la media de los valores de la columna |
| `df['columna'].median()` | Devuelve la mediana de los valores de la columna |
| `df['columna'].min()` | Devuelve el valor mínimo de la columna |
| `df['columna'].max()` | Devuelve el valor máximo de la columna |
| `df['columna'].sum()` | Devuelve la suma de los valores de la columna |
| `df['columna'].count()` | Devuelve el número de valores no nulos de la columna |
| `df['columna'].value_counts()` | Devuelve una serie con el número de apariciones de cada valor único en la columna |
| `df['columna'].unique()` | Devuelve un array con los valores únicos de la columna |
| `df['columna'].nunique()` | Devuelve el número de valores únicos en la columna |
| `df['columna'].apply(func)` | Aplica una función personalizada a cada elemento de la columna |
| `df['columna'].replace(old, new)` | Reemplaza valores específicos en la columna |


Una lista exhaustiva puede consultarse en este [enlace](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html)

Al aplicarse la función sum() a todo el dataframe retorna una serie con el valor de la suma para cada columna, pero también es posible aplicarlo a un subconjunto de las columnas

## <font color='056938'> **Crear nuevas columnas** </font>

---

Una de las tareas más comunes en los dataframes es generar nuevas columnas con base en la información existente. Note por ejemplo que podriamos crear una nueva columna que corresponda a un indice entre el número de puntos de acceso y la población, la cual denominaremos `INDICE_ACC` y cuyo calculo es el cociente de el número de puntos de acceso sobre la población

In [None]:
internet['INDICE_ACC']=internet['No. ACCESOS FIJOS A INTERNET']/internet['POBLACION DANE']
internet

Columnas que requieren operaciones más complejas pueden crearse haciendo uso de funciones creadas para ello. Esto puede hacerse a través la función `apply()` la cual recibe una funcioón predefinida o una expresión `lambda`

de funciones predefinidas o una expresión `lambda` con funciones creadas por el usuario.

Calculemos la columna `INDICE_ACC` haciendo uso de la función `apply()`. Para ello definimos la función  una función `get_index(`). Es decir:

> ```
def get_index(row):
  return row['No. ACCESOS FIJOS A INTERNET']/row['POBLACION DANE']
```





In [None]:
def get_index(row):
  return row['No. ACCESOS FIJOS A INTERNET']/row['POBLACION DANE']

internet['INDICE_ACC'] = internet.apply(lambda row: get_index(row), axis = 1)

internet

La siguiente tabla resume algunos otros métodos para agregar columnas:

| Método | Sintaxis | Descripción |
|--------|---------|-------------|
| Operaciones aritméticas | `df['nueva_columna'] = df['columna1'] + df['columna2']` | Crea una nueva columna a partir de operaciones aritméticas entre otras columnas del DataFrame. |
| Método `apply` | `df['nueva_columna'] = df['columna'].apply(funcion)` | Crea una nueva columna aplicando una función a una columna existente del DataFrame. |
| Método `map` | `df['nueva_columna'] = df['columna'].map(dict)` | Crea una nueva columna aplicando un mapeo de valores a una columna existente del DataFrame. |
| Método `assign` | `df = df.assign(nueva_columna = [valores])` | Crea una nueva columna con los valores especificados en una lista y agrega la columna al DataFrame. |
| Método `loc` | `df.loc[filtro, 'nueva_columna'] = valores` | Crea una nueva columna y asigna valores a las filas que cumplen un cierto filtro. |


### <font color='157699'> **Ejercicio 3** </font>
Cree una nueva columna llamada `SEMESTRE` en la que se indique si el registro pertenece al primer o al segundo trimestre del año

In [None]:
# Ingrese aquí su respuesta


## <font color='056938'> **Agrupar datos** </font>

---
Mediante la función `groupby()` los datos pueden agruparse con respecto a los valores de algunas de las columnas categóricas. Una descripción detallada puede consultarse en su [documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

En su forma más simple, debemos expecificar la variable respecto a la cual deseamos realizar la agrupación, la variable que se agrupará y el estadistico que deseamos calcular. En el siguiente ejemplo, serían respectivamente `DEPARTAMENTO`, `INDICE_ACC` and `mean()`




In [None]:
gruop_DEPARTAMENTO = internet.groupby('DEPARTAMENTO')['INDICE_ACC'].mean()
gruop_DEPARTAMENTO

Puede agruparse respecto a varias columnas simultaneamente pasando los nombres de dichas columnas como una lista. En nuestro ejemplo `['DEPARTAMENTO', 'MUNICIPIO']`. El parámetro `as_index` controla que los valores de las variables categoricas se incluyan o no como indices de las filas resultantes.

In [None]:
gruop_DEP_MUN = internet.groupby(['DEPARTAMENTO', 'MUNICIPIO'], as_index=False)['INDICE_ACC'].mean()
gruop_DEP_MUN

Por último, es posible agregar los datos generando varios estadisticos al mismo tiempo usando la función `agg()`.

In [None]:
gruop_DEP_MUN = internet.groupby(['DEPARTAMENTO', 'MUNICIPIO'], as_index=False).agg(
     max_INDICE_ACC = ('INDICE_ACC', max),
     min_INDICE_ACC = ('INDICE_ACC', min),
     mean_INDICE_ACC = ('INDICE_ACC', 'mean'),
     max_INSTITUCIONES = ('No. INSTITUCIONES', max)
)

gruop_DEP_MUN

Estas y otras formas de realizar la agrupación se resumen en la siguiente tabla

| Sintaxis | Descripción |
| --- | --- |
| df.groupby('columna') | Agrupa el DataFrame `df` por la columna especificada |
| df.groupby(['columna1', 'columna2']) | Agrupa el DataFrame `df` por las columnas especificadas |
| df.groupby('columna').mean() | Agrupa el DataFrame `df` por la columna especificada y calcula la media de cada grupo |
| df.groupby('columna').agg(func) | Agrupa el DataFrame `df` por la columna especificada y aplica una función de agregación personalizada `func` a cada grupo |
| df.groupby('columna').apply(func) | Agrupa el DataFrame `df` por la columna especificada y aplica una función personalizada `func` a cada grupo |
| df.groupby('columna').filter(func) | Agrupa el DataFrame `df` por la columna especificada y filtra los grupos que cumplen con una condición dada por la función `func` |


### <font color='157699'> **Ejercicio 4** </font>

Use la agrupación de datos para calcular el indice promedio, mínimo y máximo de accesibilidad en cada departamento durante cada trimestre del año


In [None]:
# Ingrese su codigo aquí



### <font color='056938'> **Agrupar datos de distintos** </font> <font color='8EC044'> **DataFrames** </font>

---

En algunos casos estamos interesados en conactenar datos de diferentes dataframes. Para lo cual Pandas ofrece diferentes opciones dependiendo del tipo de unión que deseemos hacer.

| Tipo de unión | Función de Pandas | Descripción |
| --- | --- | --- |
| Unión interna | `pd.merge(df1, df2, on=columna_común)` | Retorna sólo las filas en las que existe una coincidencia entre ambas tablas en la columna especificada. |
| Unión externa | `pd.merge(df1, df2, on=columna_común, how='outer')` | Retorna todas las filas de ambas tablas, llenando con NaNs las celdas sin coincidencia. |
| Unión izquierda | `pd.merge(df1, df2, on=columna_común, how='left')` | Retorna todas las filas de la tabla izquierda, y las filas de la tabla derecha que coinciden con la columna especificada. Las celdas sin coincidencia se llenan con NaNs. |
| Unión derecha | `pd.merge(df1, df2, on=columna_común, how='right')` | Retorna todas las filas de la tabla derecha, y las filas de la tabla izquierda que coinciden con la columna especificada. Las celdas sin coincidencia se llenan con NaNs. |
| Concatenación | `pd.concat([df1, df2])` | Une dos o más DataFrames en función de las filas o columnas. |
| Añadir filas | `df1.append(df2)` | Añade las filas del segundo DataFrame al final del primero. |
| Añadir columnas | `pd.concat([df1, df2], axis=1)` | Añade las columnas del segundo DataFrame al final del primero. |

Considere por ejemplo dos dataframes diferentes

In [None]:
import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

print(df1)


In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']})

print(df2)

La siguiente instrucción concatena las filas de los dos DataFrames

In [None]:
df_concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)
df_concatenado

La opción `axis=0` indica se agregan las filas, mientras que la opción `ignore_index=True` indica que se crea un nuevo conjunto de indices para el DataFrameConsolidado

####  <font color='157699'> **Ejercicio 5** </font>

Considere los siguientes dos dataframes

In [None]:
import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})
print(df1)


In [None]:
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
                    'C': ['C0', 'C1', 'C2', 'C4'],
                    'D': ['D0', 'D1', 'D2', 'D4']})
print(df2)

Cada DataFrame tiene una columna común llamada "key", pero también tienen otras columnas diferentes. Queremos unir estos DataFrames en uno solo, manteniendo sólo las filas en las que la columna "key" tenga coincidencias en ambos DataFrames.

In [None]:
# Inserte aquí su respuesta


## <font color='056938'> **Análisis exploratorio** </font>

Es posible realizar análisis exploratorio de los datos y calcular algunas estadisticas mediente el uso de algunas funciones predefindas.

Por ejemplo, la función `describe()` nos provee un resumen de las medidas de tendencia central y dispersión de las columnas  númericas

In [None]:
internet.describe()

Es posible obtener información especifica de una o más columnas usando algunas de las funciones predefinidas

In [None]:
internet[['No. ACCESOS FIJOS A INTERNET', 'INDICE_ACC']].mean()

De forma analoga, la función `value_counts()` provee información para las variables categoricas, en particular el conteo de datos para cada valor prosible

In [None]:
internet['DEPARTAMENTO'].value_counts()

Finalmente, es posible crear gráficos directamente desde `pandas` de forma sencilla. Creemos por ejemplo un gráfico de barras del valor promedio del indice de accesibilidad por año

In [None]:
gruop_ANO = internet.groupby('ANO', as_index=False)['INDICE_ACC'].mean()
gruop_ANO.plot.bar(x='ANO', y='INDICE_ACC')

Algunas otras opciones de gráficos son:


| Tipo de gráfico | Función de Pandas | Descripción |
| --- | --- | --- |
| Gráfico de línea | `DataFrame.plot()` | Muestra los datos como una serie de puntos conectados por líneas rectas. Útil para ver la tendencia de los datos a lo largo del tiempo. |
| Gráfico de barras | `DataFrame.plot.bar()` | Muestra los datos como barras verticales u horizontales, útil para comparar datos de diferentes categorías. |
| Gráfico de barras apiladas | `DataFrame.plot.bar(stacked=True)` | Similar al gráfico de barras, pero las barras se apilan una encima de la otra. Útil para comparar la contribución de cada categoría a un total. |
| Gráfico de dispersión | `DataFrame.plot.scatter()` | Muestra la relación entre dos conjuntos de datos como una serie de puntos. Útil para ver si hay una correlación entre los dos conjuntos de datos. |
| Gráfico de área | `DataFrame.plot.area()` | Muestra los datos como un área sombreada debajo de una línea. Útil para ver la evolución de los datos a lo largo del tiempo. |
| Gráfico de pastel | `DataFrame.plot.pie()` | Muestra los datos como un diagrama de pastel, donde cada sección representa un porcentaje del total. Útil para ver la distribución de los datos. |
| Gráfico de caja | `DataFrame.plot.box()` | Muestra los datos como una caja y un conjunto de bigotes, útil para ver la distribución de los datos y detectar valores atípicos. |

### <font color='157699'> **Ejercicio 6** </font>
Cree un diagrama de cajas de bigotes (box plot) para los valores del indice de accesibilidad en cada año

In [None]:
# Ingrese aquí su respuesta

## <font color='056938'> **Exportar información** </font>

De forma similar a como existen funciones para leer datos en distintos formatos, también es posible exportar las series y dataframes en formatos como `.csv` y `.xlsx`.

En el siguiente ejemplo seleccionamos algunas de las filas y columnas del archivo original y las exportamos a un archivo de tipo `.csv`

In [None]:
seleccion = internet[(internet['TRIMESTRE']==1) & (internet['POBLACION DANE']>1000)][["ANO", "MUNICIPIO", "No. ACCESOS FIJOS A INTERNET"]]
seleccion.to_csv("seleccion.csv")

El siguiente script descarga el archivo a su computador para que pueda explorarlo:

In [None]:
from google.colab import files
files.download('seleccion.csv')

Algunas otras opciones son:

| Formato | Función de exportación |
| --- | --- |
| CSV | `df.to_csv()` |
| Excel | `df.to_excel()` |
| JSON | `df.to_json()` |
| HTML | `df.to_html()` |
| LaTeX | `df.to_latex()` |
| SQL | `df.to_sql()` |

## <font color='157699'> **Reto** </font>

Considere el caso en el cual despues de leer los datos a un dataframe, existen algunos valores faltantes. Usted ha decidido eliminar todas las filas que tienen almenos un elemento faltante. Consulte la documentación de `pandas` para identificar la función que le permitiría cumplir con esta tarea



Leemos los datos e insertamos algunas celdas vacias.

In [None]:
import random
import numpy as np

!gdown --id 17IeVwDnYELGmf3ZrLYzznpYwas8uMQfN # lee el archivo xlsx
internet = pd.read_excel("InternetDptos.xlsx")

# funcion que inserta algunos valores vacios
def insert_nan(x):
  r = random.random()
  if r < 0.01:
    return np.nan
  else:
    return x
internet = internet.applymap(insert_nan)
print("El número de filas del dataframe es: ", internet.shape[0])

Elimine las filas que tienen por lo menos una celda vacia.

In [None]:
# inserte su código aquí


Revisado: Daniel Felipe Tobon. 2023/07/31