# Introducción a Pandas

Pandas es una biblioteca que construye sobre NumPy y provee una implementación eficiente de *DataFrames* un tipo de objetos de Python similar a una tabla que permite una conveniente manipulación de columnas y renglones, así como mecanismos para trabajar con valores faltantes e índices más complejos que los usuales (por ejemplo, fechas o instantes de tiempo).

En esta libreta veremos cómo utilizar los tipos `Series` y `DataFrame` de Pandas. Pero primero asegúrate de haber instalado la biblioteca:
1. Activa tu entorno de trabajo.
2. Ejecuta el comando en la consola: `pip install pandas`.

In [1]:
import numpy as np
import pandas as pd

**Problema 1:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [2]:
test = pd.Series({
    'Sonora': 2945000,
    'Chihuahua': 3742000,
    'Sinaloa': 3027000,
    'La Habana': 3265832,
    'Santiago de Cuba': 2286360,
}, index = ['Sonora', 'b', 'c', 'd', 'e'])
test

Sonora    2945000.0
b               NaN
c               NaN
d               NaN
e               NaN
dtype: float64

Cuando se define un index al crear una serie con un diccionario, la serie se conformará solo de par key-value
en el que haya coincidencia con los indices definidos en index. En caso de que el indice no tenga coincidencia 
con los valores del diccionario, el valor será un NaN. Esto puede ser útil para indentificar valores que no existen en un diccionario, útil para el manejo de datoss faltantes.

**Problema 2:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

In [3]:
test = pd.Series(2, index  = ['a', 'b', 'c', 'd', 'e'])
test

a    2
b    2
c    2
d    2
e    2
dtype: int64

Se generó una seríe con valor constante a lo largo de los indice definidos. Esto es útil si se ocupa una seríe con valor que no cambie.

**Problema 3:** El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.

Este tipo de arreglos compuestos se pude usar y se usa para almacenar y manejar datos heterogeneos, que bien puede ser
(nombre, salario, edad), donde cada campo del tipo de dato tiene un nombre y un tipo de dato. La forma de definir un dato de este tipo sería.
```
dtype = [('nombre', 'U10'), ('salario', float), ('edad', int)]
```

**Problema 4:** Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de [la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

- isnull: Al aplicarlo sobre una serie devuelve una serie boleana donde True indica un valor nulo y False un valor no nulo.
- notnull: Es el complemento de isnull, devuelve una serie boleana donde True indica un valor no nulo, y viceversa.
- dropna: elimina filas o columnas donde haya valores nulos.
- fillna: rellena los valores nulos de una serie con el valor que se pasa como argumento.
- pd.NA: es el valor nulo de pandas que proporciona una forma consistente de manejar valores nulos en diferentes tipos de datos

---

**Problema 5:** Pandas incluye funciones para la lectura de archivos CSV o Excel. Consulta los sitios de datos abiertos de algúna institución pública o gubernamental, descarga un dataset en formato CSV, otro en Excel y carga los datos en un DataFrame de Pandas. El DataFrame resultante debe tener asociada a cada columna el tipo de dato adecuado para trabajar.

In [4]:
df_csv = pd.read_csv('primer-listado-fertilizantes.csv',
                     encoding='latin1',
                    dtype = {'NÚMERO':int, 'NOMBRE':str, 'ACUSE ESTATAL': str, 'MUNICIPIO':str})

In [5]:
df_excel = pd.read_excel('datos-profeco-gob-mx.xlsx')

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.