## Importación y exploración de datos en Pandas

### Importación revisited

Podemos encontrar la base de datos del número de manchas solares (sunspot) diarias en la página web de [SISLO](http://www.sidc.be/silso/datafiles).  

```python
import pandas as pd
url = 'http://www.sidc.be/silso/INFO/sndtotcsv.php'
data = pd.read_csv(url)
```

Qué problemas tiene esta importación y cómo arreglarlos?  Visitemos [la información del juego de datos](http://www.sidc.be/silso/infosndtot).

Requerimos: 
1. Definir apropiadamente el separador
2. Evitar que `pandas` asigne un nombre automático de columna
3. Poner nombres de columna apropiados
4. Distinguir las observaciones que son NA de las que son un dato en la columna 5 (4 en Python)
5. Poner las fechas en un formato conveniente para cálculos en Python
6. Utilizar las fechas como índice (nombre de renglón) 


```python
data = pd.read_csv(url, sep = ";"), # arregla 1
data = pd.read_csv(url, sep = ";", header = None) # arregla 1 y 2

col_names = ['año', 'mes', 'dia', 'fecha_fraccion', 'manchas', 'sd_manchas', 'nobs', 'es_definitivo']
data = pd.read_csv(url, sep = ";", header = None, names = col_names)  # arregla 1, 2, y  3
data = pd.read_csv(url, sep = ";", header = None, names = col_names, na_values = ["  -1", " -1.0"]) 
# arregla 1, 2, 3, y 4 

# alternativa más flexible
data = pd.read_csv(url, sep = ";", header = None, names = col_names, 
                   na_values = {"manchas":["  -1"], "sd_manchas":[" -1.0"]}) # arregla 1, 2, 3, y 4

data = pd.read_csv(url, sep = ";", header = None, names = col_names, 
                   na_values = {"manchas":["  -1"], "sd_manchas":[" -1.0"]},
                   parse_dates = [[0, 1, 2]])  # arregla 1, 2, 3, 4, y 5

data.index = data["año_mes_dia"]
data.index.name = "fecha"  # arregla 1-6 y renombra el índice de renglón
```

Finalmente, seleccionamos las variables que queremos estudiar, digamos `manchas` y `es_definitivo` para obtener un juego de datos compacto

```python
manchas = data[['manchas', 'es_definitivo']]
```
Finalmente, para exportar este juego de datos podemos utilizar los métodos `to_csv`y `to_excel` como sigue

```python
csv_file = 'manchas.csv'
manchas.to_csv(csv_file)

tsv_file = 'manchas.tsv'
manchas.to_csv(tsv_file, sep = "\t")

xlsx_file = 'manchas.xlsx'
manchas.to_excel(xlsx_file)

```

### Ahora es tu turno

Usaremos el archivo `messy_yahoo_data.tsv`.  En este archivo hemos descargado datos de distintos activos desde [Yahoo! Finance](https://finance.yahoo.com).  Cada renglón es un activo y cada columna contiene el precio de cierre al final de cada mes.

1. Carga el archivo `messy_yahoo_data.tsv`  usando el comando read_csv sin más argumentos y examina el resultado para enlistar los problemas de importación.
2. Utiliza los arugmentos `delimiter`, `header`, y `comment` para arreglar este desastre  (consluta la ayuda de `pd.read_csv`
3. Guarda tu base de datos limpia en un archivo .csv llamado `clean_yahoo_finance.csv` y en un archivo excel con el mismo nombre.

### Gráficos desde un objeto DataFrame

Comenzamos cargando los módulos `matplotlib.pyplot` y `pandas`.  Descargamos y leemos los datos de Netflix desde [Yahoo! Finance](https://finance.yahoo.com), asignándolos a la variable `nflx`.

```python
import matplotlib.pyplot as plt
import pandas as pd

nflx_url = 'https://query1.finance.yahoo.com/v7/finance/download/NFLX?period1=1554571865&period2=1586190665&interval=1d&events=history'

nflx = pd.read_csv(nflx_url, index_col = "Date", parse_dates = True)
```

#### Algunas posibilidades: 

1. Usando `np.array`s
```python
close = nflx['Close'].values
plt.plot(close)
plt.show()
```

2. Usando `pandas Series` y `plt.plot()`
```python
close_series = nflx['Close']
plt.plot(close_series)
plt.show()
```
Ventaja:  Se utiliza, automáticamente, el índice de la base de datos en el eje X

3. Usando `pandas Series` y el método `.plot`
```python
close_series.plot()
plt.show()
```

Ventaja:  Arregla la nomenclatura del eje X para que sea más legible y lo nombra según el nombre del índice (Date)

4. Si se busca ver más de una serie, se puede utilizar el método `.plot` de la base de datos

```python
nflx.plot()
plt.show()
```

Desventaja: La escala del eje de referencia no ayuda a la visualización en este como en muchos otros casos. Esto puede arreglarse, en ocasiones, utilizando una escala logarítmica

```python
nflx.plot()
plt.yscale("log")
plt.show()
```

5. Podemos conformar nuestro gráfico con las opciones de `plt.plot`, por ejemplo
```python
nflx['Open'].plot(color = 'b', style = '.-', legend = True)
nflx['Close'].plot(color = 'r', style = '.', legend = True)
plt.show()
```

6. Podemos seleccionar, graficar y guardar nuestros gráficos en distintos formatos:
```python
nflx.loc['2019-05':'2019-11', ['Open', 'Close']].plot()
plt.savefig('netflix.png')
plt.savefig('netflix.jpg')
plt.savefig('netflix.pdf')
plt.show()
```


Utilizando los datos del ejemplo, para evitar el problema del escalamiento del eje y en el gráfico, haga lo siguiente, utilice el agrumento `subplots` del método `.plot` del objeto `nflx` 

#### Gráficos con columnas específicas

Utilicemos ahora el archivo `stock_data.csv` para hacer gráficos por columna. El objetivo es especificar qué columnas deberán estar en qué eje de forma explícita.  En particular graficaremos los precios de Apple y SP500 (de una base que contiene también precios de Netflix) contra el tiempo (que está en la base también). Para ello: 
1. Asigne al objeto `stocks` una base de datos con los contenidos del archivo `stock_data.csv`
2. Asigne a la lista `columnas_y` los nombres de las columnas que deseamos graficar
3. Utilice el método `.plot` de la base de datos con argumentos `x = 'Date'` y `y = columnas_y` 
4. Utilice el método `.title`de la función `plt` para añadir el título "Precios diarios de Acciones"
5. Utilice el método `.ylabel` de la función `plt` para añadir el título al eje y "Precio en USD"
6. Muestre el gráfico


#### Diagramas de dispersión (scatterplots)

También es posible generar diagramas de dispersión (scatterplots) con DataFrames.  En este ejercicio examinaremos una base de datos para visualizar la eficiencia de consumo de combustible de 398 vehículos automotores manufacturados en el preríodo de 1970 a 1982.  Estos datos se encuentran disponibles en el [UCI Machine Learning Repository](http://archive.ics.uci.edu/ml/datasets.php) bajo el rubro [Auto MPG](http://archive.ics.uci.edu/ml/datasets/Auto+MPG), en el link Data Folder.  Es el archivo [auto-mpg.data](http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data).

1. Utiliza `pd.read_csv()` para leer los datos.  Asígnalos al objeto `car_data`.  Estás teniendo algún problema de importación ??
2. Resuelto cualquier problema de importación, nombremos nuestras variables según la página de información de la base de datos. Utilice una lista llamada `col_names` para este paso.
3. Utiliza el método `.plot()` del objeto `car_data` con los argumento `kind = 'scatter'`, ` ____ = 'hp'` y `y = ____` para hacer un gráfico de dispersión entre **horse power** en el eje X y **Miles per gallon** en el eje Y.
4. Añade el título _Eficiencia de combustible vs Caballos de Fuerza_
5. Añade los títulos de ejes _Caballos de Fuerza_ para el eje X y _Eficiencia de combustible (mpg)_ en el eje Y
6. Muestra tu gráfico
7. Modifica tu gráfico variando el tamaño de cada punto con el argumento `s = sizes`.  El vector `sizes` debe contener los valores normalizados del peso del automovil según la fórmula
$$ Y = 100 \times \frac{X_i - min(X_i)}{max(X_i) - min(X_i)} $$

####  Diagramas de caja (boxplots)

Ahora generará un diagrama de caja con el mismo objeto DataFrame del ejercicio anterior.  Resumirá las variables de eficiencia de uso del combustible `mpg` y la aceleración del vehículo `acel`.  Para ello:

1.  Haga una lista llamada `cols_resumen` que contenga los nombres de las columnas que pretende analizar
2. Utilice el método `.plot` sobre la base de datos que resulta de seleccionar esas columnas de la base `car_data`.  En este comando, utilice el argumento `kind = 'box'` para que su gráfico sea un diagrama de caja y el argumento `subplots = True` para que ambos diagramas se aprecien en una misma ventana gráfica.


#### Histogramas, densidades, y distribuciones empíricas

El método `.hist` de pandas nos da gráficos de histograma, densidad empírica (pdf), y función de distribución empírica (cdf).  En este ejercicio utilizaremos el juego de datos "Wisconsin Diagnostic Breast Cancer (WDBC)" disponible el el UCI Machine Learning Repository en [esta carpeta](http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/). El archivo de nuestro interés es `wbdc.data`.  

1. Utilice `pd.read_csv` para cargar el juego de datos (verifique que sea una importación sin problemas)
2. Para que sus gráficos se vean uno sobre el otro, comience el código para generar su plot con el comando
```python
fig, ejes = plt.subplots(nrows = 2, ncols = 1)
```
3. Utilice el método `.describe` de su base de datos para saber los valores mínimos y máximos de la tercera variable de su base de datos (el radio del núcleo celular)
4. Para hacer un histograma normalizado (pdf) de esta variable, complete el comando siguiente
```python
bc[...].plot(ax = ejes[0], kind = 'hist', ... = ... , ... = ..., range = (..., ...))
```
con los argumentos `normed = True`, `bins = 30`, y en `range` ponga algo próximo a los valores mínimo y máximo de la variable de interés.
5. Para generar la distribución acumulada, complete el comando
```python
bc[...].plot(ax = ..., kind = ..., normed = ..., ... = ..., bins = ..., ... = (..., ...))
```
con los argumentos correspondientes.  En particular, decida el argumento `ax` y añada el argumento `cumulative = True`.
6. Utilice el método `plt.suptitle(...)` para poner el título _PDF y CDF del radio celular_ a su gráfico
7. Muestre su gráfico

### Exploración descriptiva de datos

Ahora buscaremos medidas estadísticas, numéricas, para describir más a fondo una base de datos.  El método `.describe` que usamos anteriormente, será nuestro punto de partida.  Observe el resultado de

In [59]:
car_data.describe()

Unnamed: 0,mpg,cyl,displ,hp,wt,accel,yr,origin
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005,1.572864
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627,0.802055
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0,1.0
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0,1.0
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0,1.0
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0,2.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0,3.0


Estos resultados revelan métodos que podemos usar sobre `Series` como en

In [61]:
print(car_data['mpg'].count())
print(car_data['mpg'].std())

398
7.815984312565782


o en bases de datos como en

In [63]:
car_data.count()

mpg       398
cyl       398
displ     398
hp        392
wt        398
accel     398
yr        398
origin    398
name      398
dtype: int64

Explore los métodos `.mean`, `.median`, `.quantile(q)`.  En este último caso, utilice `q` como un escalar primero y después como una lista.  Explore también los métodos `.min` y `.max`.

Con estas herramientas, responda:
1. Cuál es la mediana de la aceleración en la base de datos `car_data`?
2. Cuál es el cuantil del 90% del peso en la base de datos `car_data`?
3. Cuál es el rango (valor máximo - valor mínimo) del desplazamiento en la base de datos `car_data`?

Ahora, exploremos el argumento `axis` del mètodo `.mean` para una base de datos.  Según [la documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html), el argumento `axis` indica el eje sobre el que se aplicará la función.  En particular, podemos escribir:
```python
car_data.mean(axis = 0)
car_data.mean(axis = 'rows')
```
para calcular la media **por columnas** de la base de datos, y podemos escribir
```python
car_cata.mean(axis = 1)
car_data.mean(axis = 'columns')
```
para calcular la media **por renglones** de la base de datos.

#### Práctica

Practicaremos con los datos abiertos de incidencia delictiva publicados por el Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública.  Utilizaremos las [Cifras de Incidencia Delictiva Estatal, 2015- febrero 2020](https://drive.google.com/open?id=1oXjC8xHW4kBYE9aP9HhHNLAquKjHfTN2) que tenemos en nuestro espacio de trabajo an el archivo `IDEFC_NM_feb2020.csv`.  Comenzaremos por cargar los datos con

In [203]:
incid_delic = pd.read_csv("IDEFC_NM_feb2020.csv", encoding = 'latin-1',
                         index_col = 2, thousands = ",")

Ahora, haremos una reducción de los datos (más sobre estos métodos más adelante) al año 2018 y al crimen de _Robo de vehículos automotores de 4 ruedas sin violencia_

In [204]:
incid_delic.query('Año == 2018 and `Subtipo de delito` == "Robo de vehículo automotor" and Modalidad == "Robo de coche de 4 ruedas Sin violencia"', inplace = True)
incid_delic = incid_delic.iloc[:, 6:18]

Utilizaremos el método `.mean` para calcular los promedios anuales en cada una de las entidades federativas y lo graficaremos con el método `.plot`.  Para ello

1. Calcule el vector `robos_medios` como la media por Estado (eso es renglón o columna? qué eje debe usar en algumento `axis`?) del delito.
2. Utilice el método `.plot()` sobre esta `Series`.  Tome en cuenta que el índice de la base de datos (El nombre de la entidad federativa) aparecerá, automáticamente, en el eje X, de modo que no necesita pasar ningún argumento a este método.  
3. Muestre este gráfico

Mejoraremos un poco el gráfico anterior con los siguientes pasos:

1. Cambie los marcadores del eje X completando el comando
```python
plt.xticks(ticks = np.arange(0, 32, 1), labels = ..., rotation = ...)
```
Como etiquetas utilice los nombres de la entidad federativa, que están disponibles, para una base de datos `df` en `df.index.values`.  Decida un ángulo de rotación que conforme a sus expectativas.

2. Utilice el argumento `style = '.'` dentro del método `plot` para cambiar el gráfico de línea por uno de puntos. Decida cuál es más claro.

3. Agregue el título _Robos de Vehículos automotores de 4 ruedas sin violencia_   Parta el título en dos líneas después de la palabra 'automotores' (Recuerde que el símbolo '\n' representa un inicio de línea)

4. Cambie el tamaño y tipo de letra de su título usando un `fontsize` de 14 y un `fontweight` tipo 'bold' en su uso de `plt.title()`.

5. Incluya el nombre _Promedio mensual_ para su eje Y.