# Análisis de datos - Dr. Jorge Velázquez Castro

## Proyecto 1: Estadística Descriptiva

## Francisco Valentín Valerio López

### Introducción
En los últimos años, se ha propagado una enfermedad de las plantas de cítricos a nivel mundial. La enfermedad se conoce como *dragón amarillo* y es generada por una bacteria que la transmite un psilido procedente de la región asiática llamado Diaphorina.

Esta enfermedad reduce la producción de cítricos, además de que reduce su tamaño. México no está exento de este problema. Para estimar la magnitud, ubicación y posible propagación geográfica del problema, se colocan trampas de Diaphorinas en los plantíos. En el archivo llamado "`capturas_2015-2020.xls`" está el monitoreo de dichas trampas desde 2015 hasta 2020.

<div>
<img src = "src\hlb.jpg", width = "640" height = "480" align = "center"/>
<img src = "src\diaph.jpg", width = "640" height = "480" align = "center"/>
</div>


Un indicador de la dispersión es el índice de dispersión ($Id$ ) dado por:

$$ Id = \frac{\sigma^2}{\bar{x}} \tag{1}$$

donde $\sigma^2$ es la varianza de la muestra y $\bar{x}$ es la media muestral. Es importante notar que los datos de donde se obtiene $\sigma$ y $\bar{x}$ son los correspondientes a cada ubicación geográfica (trampa) y no a a cada toma de la muestra. Es decir, es necesario primero obtener el promedio temporal de Diaphorinas por ubicación (trampa o municipio) y posteriormente se podrá calcular el índica con estos datos por ubicación. 
Los valores $Id = 1$ indican una disposición espacial aleatoria, si $Id < 1$, entonces se muestra una disposición espacial regular o uniforme, y finalmente los valores $Id >> 1$ indican una disposición agregada.

El coeficiente de Green ($C_x$) es otra métrica para evaluar la agregación o uniformidad de una distribución y está dado por:

$$ C_x = \frac{(\sigma^2 / \bar{x})-1}{\sum x - 1} \tag{2} $$

Si $C_x < 0$ entonces hay un patrón uniforme, si $C_x > 0$ entonces hay un patrón de agregación y si $C_x = 0$ entonces hay una distribución aleatoria.

### Problema

1. Hacer una gráfica del promedio de Diaphorinas por trampa para cada mes de los años 2015, 2017 y 2020. Es decir, una gráfica por cada año donde en el eje horizontal esté el mes y en el vertical el promedio de Diaphorinas por trampa.

2. Hacer una gráfica del promedio de Diaphorinas por trampa para cada mes del año 2020 pero sólo de un municipio.

3. Hacer una tabla donde la primera columna sea el mes, la segunda el índice $Id$ (por trampa) y la tercera el índice $C_x$ para el año 2015.

4. Hacer una gráfica del índice $Id$ (por trampa) como función del mes que abarque desde 2015 hasta 2020.

5. Hacer una gráfica del centro de masa de las Diaphorinas como función del mes que abarque desde 2017 hasta 2020. Nota: $CM = \text{pos} \cdot \text{Diaph} / N_{\text{trampas}}$, donde $CM$ es el centro de masa, pos es la posición de la trampa, Diaph es el promedio de Diaphorinas en la trampa y $N_{\text{trampas}}$ es el número de trampas que se consideraron en el cálculo.

### Solución:

1. Vamos a importar las bibliotecas necesarias

In [1]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
plt.style.use('ggplot')

*Nota*: Para poder leer el archivo de Excel, es necesario instalar la dependencia `openpyxl` debido a cuestiones de compatibilidad con versiones de MS Excel 2010, el siguiente comando lo instala:

In [2]:
# pip install openpyxl

Vamos a importar los datos, Pandas tiene una función para leer archivos de Excel directamente. 

Es importante comentar que el archivo viene dividido por hojas de cálculo, cada una representa un año desde 2015 hasta 2020, la función `pd.read_excel()` nos permite leer el archivo .xlsx, y el parámetro `sheet_name` nos permite escoger la hoja. Por simplicidad, extraeremos cada uno de los años y los manejaremos como dataframes individuales. 

### Nota:
*En el archivo .xlsx una de hay 2 hojas de cálculo correspondientes al año 2016. Como no hay diferencias aparentes, se considerará sólo la primera hoja para el 2016.

In [4]:
datos_2015 = pd.read_excel('capturas_2015-2020.xlsx', sheet_name=0)

Visualizamos la dataframe para los datos del 2015:

In [5]:
datos_2015.head()

Unnamed: 0,Fecha,Latitud,Longitud,Ubicacion,Municipio,Comunidad,Productor,Cultivo,Fenologia,Superficie_ha,No_Trampas_Instaladas,No_Trampas_Revisadas,No_DiaphorinasXtrampa,Mes,Semana
0,2015-01-22,24.11564,-99.03734,177_THUE05-28-030-0415T01,PADILLA,Ej. Marte R. Gomez,MARTINEZ_ZAMBRANO_ROBERTA,LIMÓN,DESARROLLO (crecimiento),25.0,0.0,1.0,0.0,1.0,4.0
1,2015-01-29,24.11564,-99.03734,177_THUE05-28-030-0415T01,PADILLA,Ej. Marte R. Gomez,MARTINEZ_ZAMBRANO_ROBERTA,LIMÓN,DESARROLLO (crecimiento),25.0,1.0,1.0,0.0,1.0,5.0
2,2015-01-29,24.11562,-99.0356,177_THUE05-28-030-0415T02,PADILLA,Ej. Marte R. Gomez,MARTINEZ_ZAMBRANO_ROBERTA,LIMÓN,DESARROLLO (crecimiento),0.0,1.0,1.0,0.0,1.0,5.0
3,2015-01-22,24.11562,-99.0356,177_THUE05-28-030-0415T02,PADILLA,Ej. Marte R. Gomez,MARTINEZ_ZAMBRANO_ROBERTA,LIMÓN,DESARROLLO (crecimiento),0.0,0.0,1.0,0.0,1.0,4.0
4,2015-01-29,24.11726,-99.03528,177_THUE05-28-030-0415T03,PADILLA,Ej. Marte R. Gomez,MARTINEZ_ZAMBRANO_ROBERTA,LIMÓN,DESARROLLO (crecimiento),0.0,1.0,1.0,0.0,1.0,5.0


Ahora, podemos importar las demás hojas de cálculo para los años restantes.

In [6]:
datos_2016 = pd.read_excel('capturas_2015-2020.xlsx', sheet_name = 1)
datos_2017 = pd.read_excel('capturas_2015-2020.xlsx', sheet_name = 3)
datos_2018 = pd.read_excel('capturas_2015-2020.xlsx', sheet_name = 4)
datos_2019 = pd.read_excel('capturas_2015-2020.xlsx', sheet_name = 5)
datos_2020 = pd.read_excel('capturas_2015-2020.xlsx', sheet_name = 6)

Exploremos rápidamente el contenido de las tablas de los años siguientes:

In [7]:
datos_2016.head()

Unnamed: 0,Fecha,Latitud,Longitud,Ubicacion,Municipio,Comunidad,Productor,Cultivo,Fenologia,Superficie_ha,No_Trampas_Instaladas,No_Trampas_Revisadas,No_DiaphorinasXtrampa,Mes,Semana
0,2016-01-04,23.31379,-98.9551,177_THUE05-28-019-0030T15,LLERA,EJIDO_PEDRO_JOSE_MENDEZ,MANCILLA_ZEFERINO,NARANJA,DESARROLLO (crecimiento),0.0,0,0,0,1,1
1,2016-01-04,23.27431,-98.8622,177_THUE05-28-019-0089T03,LLERA,EJIDO_COMPUERTAS,VARGAS_OSCAR,NARANJA,DESARROLLO (crecimiento),0.0,0,0,0,1,1
2,2016-01-04,23.31596,-98.95559,177_THUE05-28-019-0030T05,LLERA,EJIDO_PEDRO_JOSE_MENDEZ,MANCILLA_ZEFERINO,NARANJA,DESARROLLO (crecimiento),0.0,0,0,0,1,1
3,2016-01-04,23.2789,-98.8741,177_THUE05-28-019-0098T03,LLERA,EJIDO_COMPUERTAS,VAZQUEZ_CAMACHO_PAULINO,NARANJA,DESARROLLO (crecimiento),0.0,0,0,0,1,1
4,2016-01-04,23.27791,-98.87282,177_THUE05-28-019-0098T06,LLERA,EJIDO_COMPUERTAS,VAZQUEZ_CAMACHO_PAULINO,NARANJA,DESARROLLO (crecimiento),0.0,0,0,0,1,1


In [8]:
datos_2017.head()

Unnamed: 0,Fecha,Latitud,Longitud,Ubicacion,Municipio,Comunidad,Productor,Cultivo,Fenologia,Superficie_ha,No_Trampas_Instaladas,No_Trampas_Revisadas,No_DiaphorinasXtrampa,Mes,Semana
0,2017-05-24,23.88426,-99.19092,177_THUE05-28-041-0143T02,VICTORIA,HUERTA SANTA FE,SILVIA MONTELONGO CANO,NARANJA,FRUCTIFICACIÓN,0.0,0,1,0,5,21
1,2017-05-10,23.88426,-99.19092,177_THUE05-28-041-0143T02,VICTORIA,HUERTA SANTA FE,SILVIA MONTELONGO CANO,NARANJA,FRUCTIFICACIÓN,0.0,0,1,0,5,19
2,2017-06-07,23.88426,-99.19092,177_THUE05-28-041-0143T02,VICTORIA,HUERTA SANTA FE,SILVIA MONTELONGO CANO,NARANJA,FRUCTIFICACIÓN,0.0,0,1,3,6,23
3,2017-04-12,23.88426,-99.19092,177_THUE05-28-041-0143T02,VICTORIA,HUERTA SANTA FE,SILVIA MONTELONGO CANO,NARANJA,FRUCTIFICACIÓN,0.0,0,1,0,4,15
4,2017-01-18,23.88426,-99.19092,177_THUE05-28-041-0143T02,VICTORIA,HUERTA SANTA FE,SILVIA MONTELONGO CANO,NARANJA,DORMANCIA,0.0,0,1,0,1,3


In [9]:
datos_2018.head()

Unnamed: 0,fecha,ano,semana,name_thue,latitud,longitud,fenologia,Revisada,captura,campo,superficie
0,2018-01-03,2018,1,177_THUE05-28-013-0639T001,23.920757,-99.1087,FRUCTIFICACION,Si,0.0,HUERTA SANTA MARTHA,26.0
1,2018-01-03,2018,1,177_THUE05-28-013-0639T002,23.920738,-99.108536,FRUCTIFICACION,Si,0.0,HUERTA SANTA MARTHA,0.0
2,2018-01-03,2018,1,177_THUE05-28-013-0639T003,23.920712,-99.10837,FRUCTIFICACION,Si,0.0,HUERTA SANTA MARTHA,0.0
3,2018-01-03,2018,1,177_THUE05-28-013-0639T004,23.920694,-99.10822,FRUCTIFICACION,Si,0.0,HUERTA SANTA MARTHA,0.0
4,2018-01-03,2018,1,177_THUE05-28-013-0639T005,23.92066,-99.108055,FRUCTIFICACION,Si,0.0,HUERTA SANTA MARTHA,0.0


In [10]:
datos_2019.head()

Unnamed: 0,Fecha,Ubicacion,Latitud,Longitud,Productor,Municipio,Localidad,Cultivo,Superficie,NoTrampasInst,...,Adultos_Brote_2,Ninfas_Brote_2,Fenologia_Brote_3,Adultos_Brote_3,Ninfas_Brote_3,Fenologia_Brote_4,Adultos_Brote_4,Ninfas_Brote_4,Mes,Semana
0,16/01/2019,THUE05/28-019/2953T06,23.2901,-98.86182,ONESIMO OLVERA ZUÑIGA,LLERA,EJIDO COMPUERTAS,NARANJA,0.0,0,...,0.0,0.0,,0.0,0.0,,0.0,0.0,1,3
1,13/02/2019,THUE05/28-019/2953T09,23.2897,-98.86197,ONESIMO OLVERA ZUÑIGA,LLERA,EJIDO COMPUERTAS,NARANJA,0.0,0,...,0.0,0.0,,0.0,0.0,,0.0,0.0,2,7
2,13/02/2019,THUE05/28-019/2953T02,23.2906,-98.86144,ONESIMO OLVERA ZUÑIGA,LLERA,EJIDO COMPUERTAS,NARANJA,0.0,0,...,0.0,0.0,,0.0,0.0,,0.0,0.0,2,7
3,13/02/2019,THUE05/28-019/2953T15,23.28952,-98.86261,ONESIMO OLVERA ZUÑIGA,LLERA,EJIDO COMPUERTAS,NARANJA,0.0,0,...,0.0,0.0,,0.0,0.0,,0.0,0.0,2,7
4,13/02/2019,THUE05/28-019/2953T10,23.28956,-98.86204,ONESIMO OLVERA ZUÑIGA,LLERA,EJIDO COMPUERTAS,NARANJA,0.0,0,...,0.0,0.0,,0.0,0.0,,0.0,0.0,2,7


In [11]:
datos_2020.head()

Unnamed: 0,Fecha,Ubicacion,Latitud,Longitud,Productor,Municipio,Localidad,Cultivo,Variedad,noProductores,...,Ninfas_Brote_2,Fenologia_Brote_3,Adultos_Brote_3,Ninfas_Brote_3,Fenologia_Brote_4,Adultos_Brote_4,Ninfas_Brote_4,Mes,Semana,Tecnico
0,02/01/2020,THUE05/28-019/2974T06,23.25613,-98.82374,PALMIRA CASTRO ALVAREZ,LLERA,EJIDO JOSE SILVA SANCHEZ.,NARANJA,VALENCIA,1,...,0,V6,0,0,V5,0,0,1,1,GERARDO GUEVARA SANCHEZ
1,16/01/2020,THUE05/28-019/2974T06,23.25613,-98.82374,PALMIRA CASTRO ALVAREZ,LLERA,EJIDO JOSE SILVA SANCHEZ.,NARANJA,VALENCIA,1,...,0,V5,0,0,V4,0,0,1,3,GERARDO GUEVARA SANCHEZ
2,02/01/2020,THUE05/28-019/2974T11,23.25575,-98.82317,PALMIRA CASTRO ALVAREZ,LLERA,EJIDO JOSE SILVA SANCHEZ.,NARANJA,VALENCIA,1,...,0,V6,1,0,V5,1,0,1,1,GERARDO GUEVARA SANCHEZ
3,16/01/2020,THUE05/28-019/2974T02,23.25653,-98.82423,PALMIRA CASTRO ALVAREZ,LLERA,EJIDO JOSE SILVA SANCHEZ.,NARANJA,VALENCIA,1,...,0,V5,0,0,V4,0,0,1,3,GERARDO GUEVARA SANCHEZ
4,16/01/2020,THUE05/28-019/2974T17,23.25618,-98.82309,PALMIRA CASTRO ALVAREZ,LLERA,EJIDO JOSE SILVA SANCHEZ.,NARANJA,VALENCIA,1,...,0,V5,0,0,V5,1,0,1,3,GERARDO GUEVARA SANCHEZ


Notamos que para la dataframe `datos_2018` la información está estructurada de manera distinta a todas las demás, así que habrá que tener cuidado al momento de manejar su información.

También podemos obtener información de cada una de las tablas, pero para ejemplificar, lo haremos sólo para el año 2015.

In [13]:
datos_2015.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 421360 entries, 0 to 421359
Data columns (total 15 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   Fecha                  384663 non-null  datetime64[ns]
 1   Latitud                384663 non-null  float64       
 2   Longitud               384663 non-null  float64       
 3   Ubicacion              384663 non-null  object        
 4   Municipio              384663 non-null  object        
 5   Comunidad              384663 non-null  object        
 6   Productor              384663 non-null  object        
 7   Cultivo                384663 non-null  object        
 8   Fenologia              384663 non-null  object        
 9   Superficie_ha          384663 non-null  float64       
 10  No_Trampas_Instaladas  384663 non-null  float64       
 11  No_Trampas_Revisadas   384663 non-null  float64       
 12  No_DiaphorinasXtrampa  384663 non-null  floa

Recordemos que primero queremos obtener una gráfica que muestre el promedio de diaphorinas detectadas en las trampas para cada mes de los años 2015, 2017 y 2020. Así que la variable de interés está en la columna `No_DiaphorinasXtrampa`. 

Podemos utilizar `groupby` para agrupar por `Mes` y después aplicar una función que calcule el promedio de diaphorinas, usaremos `agg` 

In [14]:
diaph_avg_2015 = datos_2015.groupby('Mes').agg({'No_DiaphorinasXtrampa': np.mean})

diaph_avg_2015

Unnamed: 0_level_0,No_DiaphorinasXtrampa
Mes,Unnamed: 1_level_1
1.0,0.092308
2.0,0.11651
3.0,0.160865
4.0,0.105462
5.0,0.037114
6.0,0.033045
7.0,0.03922
8.0,0.114808
9.0,0.156186
10.0,0.175519
