# Ejercicio bases de datos café

1. Caracterización de los Productores de Café en Colombia

Instrucciones: 
Utilice los datos suministrados para realizar una caracterización completa de los productores de café en Colombia. Se espera que utilice Python para limpiar y analizar los datos, apoyándose en gráficos y tablas para ilustrar sus hallazgos.

Pregunta 1.1: Utilizando las fuentes de datos proporcionadas, clasifique a los caficultores colombianos según el tamaño de sus fincas en hectáreas cultivadas de café. Describa los rangos establecidos (por ejemplo, pequeños, medianos y grandes productores) y explique qué porcentaje de la producción total corresponde a cada grupo.

Pregunta 1.2: Analice las diferencias en el tamaño promedio de los caficultores a nivel departamental. Identifique los departamentos con mayores y menores concentraciones de pequeños productores y analice los resultados.

Pregunta 1.3: Estime el ingreso promedio anual de los caficultores por tamaño medido en hectáreas. Compare los resultados obtenidos, destacando cualquier disparidad significativa entre los grupos analizados y explique las posibles causas de estas diferencias. Incluir gráficos o tablas.

Datos suministrados:

BD_Infocul_Sintetica: datos que muestra la estructura productiva de los caficultores del país, a nivel de lote.

BD_Serie_Histórica_Producción: datos de la producción agregada de café en Colombia por año.

BD_Precio_Precio_Interno: serie diaria del precio interno de referencia de café en Colombia. Esta variable se puede interpretar como el valor que recibe el caficultor por la venta de su café.

Variables de referencia:

Productividad media por hectárea: se estima que en una hectárea cultivada de café se producen 10.5 Cargas de Café Pergamino Seco. Recuerde que esta es la medida en la que se expresa el precio interno de café en Colombia.

2. Impacto de las Condiciones Climáticas en los Caficultores

Instrucciones: 
A partir de los datos proporcionados sobre la vulnerabilidad climática, realice un análisis en Python que permita visualizar los efectos del Fenómeno El Niño y La Niña en los diferentes municipios y caficultores. Asegúrese de detallar el impacto en función del tamaño de los caficultores.

Pregunta 2.1: Con la base de datos
“BD_Vulnerabilidad_climática_niño_niña.csv”. Haga un análisis de los municipios que se ven más afectados por el Fenómeno El Niño y/o La Niña. Describa los resultados de su análisis.

Pregunta 2.2: A partir de estos resultados, analice el impacto diferenciado de estos fenóme
nos climáticos en los pequeños, medianos y grandes productores, a nivel departamento. Proporcione ejemplos claros de cómo el cambio en las condiciones climáticas podría afectar a cada grupo de manera distinta. Para esto se recomienda, considerar los resultados descritos en la parte 1 de la prueba.

Datos suministrados:

BD_Vulnerabilidad_Fenomeno_Niña.: datos a nivel municipio que describen el grado de vulnerabilidad que estos presentan frente al fenómeno La Niña. La columna que indica el grado de vulnerabilidad se denomina “Condición”. En específico, la vulnerabilidad se da cuando la condición es diferente a normal.

BD_Vulnerabilidad_Fenomeno_Niño.: datos a nivel municipio que describen el grado de vulnerabilidad que estos presentan frente al fenómeno La Niña. La columna que indica el grado de vulnerabilidad se denomina “Condición”. En específico, la vulnerabilidad se da cuando la condición es diferente a normal.

# 1. Caracterización de los Productores de Café en Colombia

In [120]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Carga de las bases de datos, exploración y tratamiento

In [121]:
# Cargar base BD_Infocul_Sintetica
BD_Infocul_Sintetica = pd.read_csv(r'C:\Users\Usuario\Documents\CIENCIA DE DATOS\REPOSITORIO GITHUB\MINERÍA DE DATOS Y MODELACIÓN ejercicios\2. Ejercicio bases datos cafe\bases_cafe\BD_Infocul_Sintetica.csv')
BD_Infocul_Sintetica.head()

Unnamed: 0,Codigo DANE Municipio,Area_Cul,Edad,Id_S_Caficultores,Id_S_finca,Id_S_Lote
0,44855,0.65,40.78,11194400,17586400,34730700
1,25488,0.7,28.02,33009700,40879300,65418400
2,25436,0.2,28.02,26145300,40591200,65353200
3,25297,0.08,27.87,32841100,47528200,79414800
4,15106,0.05,27.93,47969800,26123600,44997200


In [122]:
# Cargar base BD_Serie_Histórica_Producción
BD_Serie_Histórica_Producción = pd.read_csv(r'C:\Users\Usuario\Documents\CIENCIA DE DATOS\REPOSITORIO GITHUB\MINERÍA DE DATOS Y MODELACIÓN ejercicios\2. Ejercicio bases datos cafe\bases_cafe\BD_Serie_Histórica_Producción.csv', encoding='latin1')
BD_Serie_Histórica_Producción.head()

Unnamed: 0,Fecha,Producción
0,ene-56,693.0
1,feb-56,461.0
2,mar-56,339.0
3,abr-56,417.0
4,may-56,644.0


In [123]:
# Cargar base BD_Precio_Precio_Interno
BD_Precio_Precio_Interno = pd.read_csv(r'C:\Users\Usuario\Documents\CIENCIA DE DATOS\REPOSITORIO GITHUB\MINERÍA DE DATOS Y MODELACIÓN ejercicios\2. Ejercicio bases datos cafe\bases_cafe\BD_Precio_Precio_Interno.csv')
BD_Precio_Precio_Interno.head()

Unnamed: 0,Fecha,Precio
0,2/1/2003,277.0
1,3/1/2003,280.875
2,4/1/2003,280.875
3,5/1/2003,280.875
4,6/1/2003,281.5


In [124]:
# Cargar base BD_Vulnerabilidad_Fenomeno_Niña 
BD_Vulnerabilidad_Fenomeno_Niña = pd.read_csv(r'C:\Users\Usuario\Documents\CIENCIA DE DATOS\REPOSITORIO GITHUB\MINERÍA DE DATOS Y MODELACIÓN ejercicios\2. Ejercicio bases datos cafe\bases_cafe\BD_Vulnerabilidad_Fenomeno_Niña.csv', encoding='latin-1')
BD_Vulnerabilidad_Fenomeno_Niña.head()

Unnamed: 0,Departamento,Código DANE Municipio,Municipio,Semestre Cosecha Principal,Semestre Cosecha Mitaca,Categoría Cosecha Principal,Categoría Cosecha Mitaca,Mes Predominante I Semestre,2do Mes Predominante I Semestre,Mes Predominante II Semestre,...,Condición Niña \nDébil,Rango \nNiña \nModerada,Condición Niña \nModerada,Rango Niña \nFuerte,Condición Niña \nFuerte,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,Antioquia,5040.0,Anori,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Excedente (120 - 160),Excedente,,,,,
1,Antioquia,5854.0,Valdivia,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Normal (80 - 120),Normal,,,,,
2,Antioquia,5361.0,Ituango,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Excedente (120 - 160),Excedente,,,,,
3,Antioquia,5031.0,Amalfi,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Excedente (120 - 160),Excedente,,,,,
4,Antioquia,5604.0,Remedios,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Normal (80 - 120),Normal,,,,,


In [125]:
# Cargar base BD_Vulnerabilidad_Fenomeno_Niño 
BD_Vulnerabilidad_Fenomeno_Niño = pd.read_csv(r'C:\Users\Usuario\Documents\CIENCIA DE DATOS\REPOSITORIO GITHUB\MINERÍA DE DATOS Y MODELACIÓN ejercicios\2. Ejercicio bases datos cafe\bases_cafe\BD_Vulnerabilidad_Fenomeno_Niño.csv', encoding='latin-1')
BD_Vulnerabilidad_Fenomeno_Niño.head()

Unnamed: 0,Departamento,Municipio,Código Dane Municipio,Latitud,Longitud,Rango FT,Condición FT,Rango FD,Condición FD,Rango FM,Condición FM,Rango FF,Condición FF
0,CALDAS,NEIRA,17486,5.183359,-75.50693,Normal (80 - 120),Normal,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Normal (80 - 120),Normal
1,NARIÑO,LA CRUZ,52378,1.584176,-76.923353,Normal (80 - 120),Normal,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Normal (80 - 120),Normal
2,HUILA,PITAL,41548,2.259602,-75.831952,Normal (80 - 120),Normal,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit
3,TOLIMA,ALPUJARRA,73024,3.390015,-74.940782,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit
4,ANTIOQUIA,AMALFI,5031,6.977789,-74.981239,Normal (80 - 120),Normal,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit


In [126]:
# Descargar de la página web del DANE con los códigos DANE de los municipios y sus respectivos departamentos, y llamarlo BD_Cod_Munici
BD_Cod_Munici = pd.read_csv(r'C:\Users\Usuario\Documents\CIENCIA DE DATOS\REPOSITORIO GITHUB\MINERÍA DE DATOS Y MODELACIÓN ejercicios\2. Ejercicio bases datos cafe\bases_cafe\BD_Cod_Munici.csv', encoding='latin-1')
BD_Cod_Munici.head()

Unnamed: 0,Departamento,Código DANE Municipio
0,AMAZONAS,91263
1,AMAZONAS,91405
2,AMAZONAS,91407
3,AMAZONAS,91430
4,AMAZONAS,91001


In [127]:
# Cambiar nombres de las BD
BD_infocul = BD_Infocul_Sintetica
BD_produc = BD_Serie_Histórica_Producción
BD_precio = BD_Precio_Precio_Interno
BD_cod_mun = BD_Cod_Munici
BD_nina = BD_Vulnerabilidad_Fenomeno_Niña
BD_nino = BD_Vulnerabilidad_Fenomeno_Niño

In [None]:
# Definir cuáles variables necesito de cada base para punto 1 (Caracterización de los Productores), y qué debo hacer con ellas:

In [128]:
BD_infocul.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2104819 entries, 0 to 2104818
Data columns (total 6 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   Codigo DANE Municipio  int64  
 1   Area_Cul               float64
 2   Edad                   float64
 3   Id_S_Caficultores      int64  
 4   Id_S_finca             int64  
 5   Id_S_Lote              int64  
dtypes: float64(2), int64(4)
memory usage: 96.4 MB


In [129]:
BD_produc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 824 entries, 0 to 823
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Fecha       824 non-null    object 
 1   Producción  824 non-null    float64
dtypes: float64(1), object(1)
memory usage: 13.0+ KB


In [130]:
BD_precio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7951 entries, 0 to 7950
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Fecha   7951 non-null   object 
 1   Precio  7951 non-null   float64
dtypes: float64(1), object(1)
memory usage: 124.4+ KB


In [100]:
# De BD_infocul: se utilizan las variables Codigo DANE Municipio, Area_Cul y Id_S_Caficultores. 
# En "Codigo DANE Municipio" cambiar nomrbe a "Código DANE Municipio"

In [None]:
# De BD_produc: se utilizan las variables Fecha y Producción.
# En "Fecha" Se debe convertir a datetime con format*

In [102]:
# De BD_precio: se utilizan las variables Fecha y Precio

In [131]:
# Transformación de variables
# Cambiar el nombre de la columna en BD_infocul
BD_infocul.rename(columns={"Codigo DANE Municipio": "Código DANE Municipio"}, inplace=True)

In [132]:
BD_produc.head()

Unnamed: 0,Fecha,Producción
0,ene-56,693.0
1,feb-56,461.0
2,mar-56,339.0
3,abr-56,417.0
4,may-56,644.0


In [133]:
# Cambiar formato de fecha en BD_precio
BD_precio['Fecha'] = pd.to_datetime(BD_precio['Fecha'], format="%d/%m/%Y")

In [74]:
# Definir cuáles variables necesito de cada base para punto 2 (Impacto de las Condiciones Climáticas), y qué debo hacer con ellas:

In [134]:
BD_nina.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 26 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   Departamento                                    586 non-null    object 
 1   Código DANE Municipio                           586 non-null    float64
 2   Municipio                                       586 non-null    object 
 3   Semestre Cosecha Principal                      586 non-null    object 
 4   Semestre Cosecha Mitaca                         586 non-null    object 
 5   Categoría Cosecha Principal                     586 non-null    float64
 6   Categoría Cosecha Mitaca                        586 non-null    float64
 7   Mes Predominante I Semestre                     586 non-null    float64
 8   2do Mes Predominante I Semestre                 586 non-null    float64
 9   Mes Predominante II Semestre               

In [135]:
BD_nino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 604 entries, 0 to 603
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Departamento           604 non-null    object 
 1   Municipio              604 non-null    object 
 2   Código Dane Municipio  604 non-null    int64  
 3   Latitud                604 non-null    float64
 4   Longitud               604 non-null    float64
 5   Rango FT               604 non-null    object 
 6   Condición FT           604 non-null    object 
 7   Rango FD               604 non-null    object 
 8   Condición FD           604 non-null    object 
 9   Rango FM               604 non-null    object 
 10  Condición FM           604 non-null    object 
 11  Rango FF               604 non-null    object 
 12  Condición FF           604 non-null    object 
dtypes: float64(2), int64(1), object(10)
memory usage: 61.5+ KB


In [None]:
# De BD_nina: se utilizan las variables Departamento, Código DANE Municipio, Municipio, Rango Niña Típica, Condición Niña Típica.
# En "Departamento" pasar a mayúsculas
# En "Municipio" pasar a mayúscula
# En "Código DANE Municipio" cambiar el formato de número para que quede igual a las otras bases (dejar en int64)
# En "Condición Niña Típica" cambiar nombre a "Condición FT"

In [136]:
# Transformación de variables
# Pasar a mayúsculas el contenido de las columnas "Departamento" y "Municipio"
BD_nina["Departamento"] = BD_nina["Departamento"].str.upper()
BD_nina["Municipio"] = BD_nina["Municipio"].str.upper()

In [137]:
# Asegurarse de que "Código DANE Municipio" sea numérico y luego cambiar a número sin decimales
BD_nina["Código DANE Municipio"] = pd.to_numeric(BD_nina["Código DANE Municipio"], errors='coerce').fillna(0).astype(int)

In [138]:
# Limpiar los nombres de las columnas (eliminar saltos de línea y espacios adicionales)
BD_nina.columns = BD_nina.columns.str.replace(r'\n', ' ', regex=True)  # Reemplaza saltos de línea por espacios
BD_nina.columns = BD_nina.columns.str.strip()  # Eliminar espacios al principio y al final

In [139]:
# Cambiar el nombre de la columna "Condición Niña Típica" a "Condición FT"
BD_nina.rename(columns={"Condición Niña Típica": "Condición FT"}, inplace=True)

In [140]:
# De BD_nino: Se utilizan las variables Departamento, Municipio, Código Dane Minucipio, Condición FT
# En "Código Dane Minucipio" cambiar nombre a "Código DANE Municipio"
BD_nino.rename(columns={"Código Dane Municipio": "Código DANE Municipio"}, inplace=True)

In [141]:
BD_cod_mun.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1119 entries, 0 to 1118
Data columns (total 2 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Departamento           1119 non-null   object
 1   Código DANE Municipio  1119 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 17.6+ KB


In [142]:
# Calcular el promedio anual del precio
BD_precio['Fecha'] = pd.to_datetime(BD_precio['Fecha'])
BD_precio['Año'] = BD_precio['Fecha'].dt.year
precio_promedio_anual = BD_precio.groupby('Año')['Precio'].mean().mean()

In [143]:
BD_precio.head()

Unnamed: 0,Fecha,Precio,Año
0,2003-01-02,277.0,2003
1,2003-01-03,280.875,2003
2,2003-01-04,280.875,2003
3,2003-01-05,280.875,2003
4,2003-01-06,281.5,2003


### 1.1. Clasifique a los caficultores colombianos según el tamaño de sus fincas en hectáreas cultivadas de café. Describa los rangos establecidos (por ejemplo, pequeños, medianos y  grandes productores) y explique qué porcentaje de la producción total corresponde a cada grupo.

In [144]:
# Función para clasificar tamaño de finca
def clasificar_tamano(area):
    if area < 2.1:
        return 'Pequeño'
    elif 2.1 <= area <= 6.89:
        return 'Mediano'
    else:
        return 'Grande'

# Crear la columna 'Categoria_Productor' en 'BD_infocul'
BD_infocul['Categoria_Productor'] = BD_infocul['Area_Cul'].apply(clasificar_tamano)

# Verificar los primeros registros con la nueva columna
print(BD_infocul[['Id_S_Caficultores', 'Area_Cul', 'Categoria_Productor']].head())

   Id_S_Caficultores  Area_Cul Categoria_Productor
0           11194400      0.65             Pequeño
1           33009700      0.70             Pequeño
2           26145300      0.20             Pequeño
3           32841100      0.08             Pequeño
4           47969800      0.05             Pequeño


In [145]:
# Resumen de la columna 'Categoria_Productor', cuántos productores hay por cada categoría
BD_infocul['Categoria_Productor'].value_counts()

Categoria_Productor
Pequeño    2082589
Mediano      21068
Grande        1162
Name: count, dtype: int64

In [None]:
# VEMOS LA CANTIDAD DE PRODUCTORES POR CATEGORÍA: PEQUEÑOS(2082589), MEDIANOS (21068) Y GRANDES (1162)

In [146]:
# Estimar la producción total por productor y clasificarla por tamaño de finca
BD_infocul['Produccion'] = BD_infocul['Area_Cul'] * 10.5

# Agrupar por la categoría de productor (pequeño, mediano, grande) y calcular la producción total por grupo
produccion_por_categoria = BD_infocul.groupby('Categoria_Productor')['Produccion'].sum()

# Calcular el total de producción
produccion_total = produccion_por_categoria.sum()

# Calcular el porcentaje de la producción total por cada categoría
produccion_por_categoria_porcentaje = (produccion_por_categoria / produccion_total) * 100

In [147]:
BD_infocul.head()

Unnamed: 0,Código DANE Municipio,Area_Cul,Edad,Id_S_Caficultores,Id_S_finca,Id_S_Lote,Categoria_Productor,Produccion
0,44855,0.65,40.78,11194400,17586400,34730700,Pequeño,6.825
1,25488,0.7,28.02,33009700,40879300,65418400,Pequeño,7.35
2,25436,0.2,28.02,26145300,40591200,65353200,Pequeño,2.1
3,25297,0.08,27.87,32841100,47528200,79414800,Pequeño,0.84
4,15106,0.05,27.93,47969800,26123600,44997200,Pequeño,0.525


In [148]:
# Mostrar los resultados de producción de café por categoría de productor en valor absoluto
print(produccion_por_categoria)

Categoria_Productor
Grande      121890.51
Mediano     697556.37
Pequeño    8014773.48
Name: Produccion, dtype: float64


In [None]:
# VEMOS LA CANTIDAD DE CARGAS DE CAFÉ QUE PRODUCEN POR CADA TIPO DE PRODUCTORES: PEQUEÑOS(8014773.48), MEDIANOS (697556.37) Y GRANDES (121890.51)

In [149]:
# Mostrar los resultados de producción de café por categoría de productor en porcentaje
print(produccion_por_categoria_porcentaje)

Categoria_Productor
Grande      1.379754
Mediano     7.896072
Pequeño    90.724174
Name: Produccion, dtype: float64


In [None]:
# VEMOS EL PORCENTAJE QUE PRODUCEN POR CADA TIPO DE PRODUCTORES: PEQUEÑOS(90.724174), MEDIANOS (7.896072) Y GRANDES (1.379754)

### 1.2. Analice las diferencias en el tamaño promedio de los caficultores a nivel departamental. Identifique los departamentos con mayores y menores concentraciones de pequeños productores, y analice los resultados.

In [150]:
# Realizar el merge (entre BD_infocul y BD_Cod_Munici) para agregar la columna 'Departamento' que es de la segunda base, usando el left
BD_infocul = BD_infocul.merge(BD_cod_mun, how='left', on='Código DANE Municipio')

In [151]:
# Calcular el tamaño promedio de finca por departamento
tamano_prom_dep = BD_infocul.groupby('Departamento')['Area_Cul'].mean()

In [152]:
# Identificar los departamentos con mayores y menores concentraciones de pequeños productores
concentracion_pequenos = BD_infocul[BD_infocul['Categoria_Productor'] == 'Pequeño'].groupby('Departamento').size()

In [153]:
# Mostrar los resultados de departamentos con coficultores de mayor tamaño promedio
print(tamano_prom_dep.sort_values(ascending=False).head())  # Departamentos con mayor tamaño promedio

Departamento
MAGDALENA    0.983243
ARAUCA       0.826119
CESAR        0.788078
BOLIVAR      0.779279
META         0.696339
Name: Area_Cul, dtype: float64


In [None]:
# LOS DEPARTAMENTOS QUE TIENEN LOS PRODUCTORES CON MAYOR TAMAÑO PROMEDIO DE HECTAREAS SON: MAGDALENA(0.983243), ARAUCA(0.826119) Y CESAR(0.788078)

In [154]:
# Mostrar los resultados de departamentos con coficultores de menor tamaño promedio
print(tamano_prom_dep.sort_values(ascending=True).head())   # Departamentos con menor tamaño promedio

Departamento
CHOCO        0.289378
NARIÑO       0.319333
BOYACÁ      0.333241
SANTANDER    0.341384
CAUCA        0.344848
Name: Area_Cul, dtype: float64


In [None]:
# LOS DEPARTAMENTOS QUE TIENEN LOS PRODUCTORES CON MENOR TAMAÑO PROMEDIO DE HECTAREAS SON: CHOCO(0.289378), NARIÑO(0.319333) Y BOYACÁ(0.333241)

In [155]:
# Mostrar los resultados de departamentos que tienen más cantidad de pequeños productores
print(concentracion_pequenos.sort_values(ascending=False).head()) 

Departamento
HUILA        378937
ANTIOQUIA    296974
CAUCA        274260
TOLIMA       237936
SANTANDER    160702
dtype: int64


In [None]:
# LOS DEPARTAMENTOS CON EL MAYOR NÚMERO DE PEQUEÑOS PRODUCTORES SON: HUILA(378937), ANTIOQUIA(296974) Y CAUCA(274260)

In [156]:
# Mostrar los resultados de departamentos que tienen menos cantidad de pequeños productores
print(concentracion_pequenos.sort_values(ascending=True).head())

Departamento
ARAUCA       127
PUTUMAYO     377
CHOCO        563
BOLIVAR     1856
META        4139
dtype: int64


In [None]:
# LOS DEPARTAMENTOS CON EL MENOR NÚMERO DE PEQUEÑOS PRODUCTORES SON: ARAUCA(127), PUTUMAYO(377) Y CHOCO(563)

### 1.3. Estime el ingreso promedio anual de los caficultores por tamaño (medido en hectáreas). Compare los resultados obtenidos, destacando cualquier disparidad significativa entre los grupos analizados y explique las posibles causas de estas diferencias. Incluir gráficos o tablas será valorado.

In [157]:
# Ya previamente se había estimado la producción total por productor (Produccion) en BD_infocul
# Calcular el precio promedio anual
precio_promedio_anual = BD_precio.groupby(BD_precio['Fecha'].dt.year)['Precio'].mean()

In [158]:
BD_infocul.head()

Unnamed: 0,Código DANE Municipio,Area_Cul,Edad,Id_S_Caficultores,Id_S_finca,Id_S_Lote,Categoria_Productor,Produccion,Departamento
0,44855,0.65,40.78,11194400,17586400,34730700,Pequeño,6.825,LA GUAJIRA
1,25488,0.7,28.02,33009700,40879300,65418400,Pequeño,7.35,CUNDINAMARCA
2,25436,0.2,28.02,26145300,40591200,65353200,Pequeño,2.1,CUNDINAMARCA
3,25297,0.08,27.87,32841100,47528200,79414800,Pequeño,0.84,CUNDINAMARCA
4,15106,0.05,27.93,47969800,26123600,44997200,Pequeño,0.525,BOYACÁ


In [159]:
BD_precio.head()

Unnamed: 0,Fecha,Precio,Año
0,2003-01-02,277.0,2003
1,2003-01-03,280.875,2003
2,2003-01-04,280.875,2003
3,2003-01-05,280.875,2003
4,2003-01-06,281.5,2003


In [160]:
precio_promedio_anual.head()

Fecha
2003    307.368819
2004    351.350697
2005    456.876027
2006    465.921233
2007    457.366438
Name: Precio, dtype: float64

In [161]:
precio_promedio_anual.tail()

Fecha
2020    1048.581967
2021    1523.030137
2022    2150.641096
2023    1610.847527
2024    1700.019187
Name: Precio, dtype: float64

In [162]:
BD_produc.head()

Unnamed: 0,Fecha,Producción
0,ene-56,693.0
1,feb-56,461.0
2,mar-56,339.0
3,abr-56,417.0
4,may-56,644.0


In [163]:
BD_produc.tail()

Unnamed: 0,Fecha,Producción
819,Apr-24,742.0
820,May-24,1.12
821,Jun-24,1.172
822,Jul-24,1.159
823,Aug-24,1.049


In [164]:
BD_infocul.head()

Unnamed: 0,Código DANE Municipio,Area_Cul,Edad,Id_S_Caficultores,Id_S_finca,Id_S_Lote,Categoria_Productor,Produccion,Departamento
0,44855,0.65,40.78,11194400,17586400,34730700,Pequeño,6.825,LA GUAJIRA
1,25488,0.7,28.02,33009700,40879300,65418400,Pequeño,7.35,CUNDINAMARCA
2,25436,0.2,28.02,26145300,40591200,65353200,Pequeño,2.1,CUNDINAMARCA
3,25297,0.08,27.87,32841100,47528200,79414800,Pequeño,0.84,CUNDINAMARCA
4,15106,0.05,27.93,47969800,26123600,44997200,Pequeño,0.525,BOYACÁ


In [165]:
print(precio_promedio_anual)

Fecha
2003     307.368819
2004     351.350697
2005     456.876027
2006     465.921233
2007     457.366438
2008     493.520697
2009     658.127055
2010     755.343767
2011     975.535712
2012     660.188866
2013     466.206507
2014     703.079110
2015     716.497260
2016     829.761954
2017     818.045205
2018     741.137329
2019     788.027397
2020    1048.581967
2021    1523.030137
2022    2150.641096
2023    1610.847527
2024    1700.019187
Name: Precio, dtype: float64


In [166]:
print(BD_infocul['Produccion'])

0          6.825
1          7.350
2          2.100
3          0.840
4          0.525
           ...  
2104814    0.315
2104815    2.625
2104816    5.250
2104817    1.575
2104818    0.735
Name: Produccion, Length: 2104819, dtype: float64


In [None]:
#####

In [167]:
print(produccion_por_categoria)

Categoria_Productor
Grande      121890.51
Mediano     697556.37
Pequeño    8014773.48
Name: Produccion, dtype: float64


In [168]:
print(precio_promedio_anual)

Fecha
2003     307.368819
2004     351.350697
2005     456.876027
2006     465.921233
2007     457.366438
2008     493.520697
2009     658.127055
2010     755.343767
2011     975.535712
2012     660.188866
2013     466.206507
2014     703.079110
2015     716.497260
2016     829.761954
2017     818.045205
2018     741.137329
2019     788.027397
2020    1048.581967
2021    1523.030137
2022    2150.641096
2023    1610.847527
2024    1700.019187
Name: Precio, dtype: float64


In [None]:
# Crear un DataFrame para almacenar los ingresos por productor
ingreso_por_categoria = pd.DataFrame(index=produccion_por_categoria.index, columns=precio_promedio_anual.index)

In [119]:
ingreso_por_categoria.head()

Unnamed: 0,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
Grande,,,,,,,,,,,...,,,,,,,,,,
Mediano,,,,,,,,,,,...,,,,,,,,,,
Pequeño,,,,,,,,,,,...,,,,,,,,,,


In [172]:
# Calcular el ingreso para cada tipo de productor en cada año
for Categoria_Productor in produccion_por_categoria.index:
    for Fecha in precio_promedio_anual.index:
        ingreso_por_categoria.loc[Categoria_Productor, Fecha] = produccion_por_categoria[Categoria_Productor] * precio_promedio_anual[Fecha]


In [173]:
ingreso_por_categoria.head()

Unnamed: 0,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
Grande,37465342.067163,42826315.612216,55688851.986226,56791376.695171,55748628.428116,60155489.418916,80219442.353702,92069236.999979,118908545.498967,80470757.587715,...,87334216.468397,101140107.697039,99711947.298945,90337606.983462,96053061.346027,127812190.76041,185642920.14263,262142740.005041,196347026.655865,207216205.747241
Mediano,214407077.410529,245086916.601889,318696783.211253,325006323.911404,319038872.499555,344258505.724789,459080719.341257,526894856.296646,680491150.297419,460518948.965236,...,499797227.991658,578805736.283781,570632644.030151,516985064.726291,549693530.693425,731445030.696639,1062399373.756767,1500193396.022137,1123656953.887212,1185859213.208796
Pequeño,2463491456.545961,2815996246.26149,3661757868.031315,3734253141.029178,3665688400.779041,3955456591.91309,5274739265.23763,6053909193.023022,7818697755.965512,5291264215.971599,...,5742563240.136494,6650354100.040861,6556447018.317863,5940047807.640781,6315861085.075069,8404146942.425901,12206741551.158575,17236901220.340607,12910578043.510386,13625268697.696102


In [174]:
# Mostrar los ingresos anuales por cada tipo de productor
print(ingreso_por_categoria)

                      2003              2004               2005  \
Grande     37465342.067163   42826315.612216    55688851.986226   
Mediano   214407077.410529  245086916.601889   318696783.211253   
Pequeño  2463491456.545961  2815996246.26149  3661757868.031315   

                      2006               2007              2008  \
Grande     56791376.695171    55748628.428116   60155489.418916   
Mediano   325006323.911404   319038872.499555  344258505.724789   
Pequeño  3734253141.029178  3665688400.779041  3955456591.91309   

                     2009               2010               2011  \
Grande    80219442.353702    92069236.999979   118908545.498967   
Mediano  459080719.341257   526894856.296646   680491150.297419   
Pequeño  5274739265.23763  6053909193.023022  7818697755.965512   

                      2012  ...               2015               2016  \
Grande     80470757.587715  ...    87334216.468397   101140107.697039   
Mediano   460518948.965236  ...   499797227.991

# 2. Impacto de las Condiciones Climáticas en los Caficultores

In [175]:
BD_nina.info()
BD_nina.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 26 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   Departamento                                    586 non-null    object 
 1   Código DANE Municipio                           999 non-null    int32  
 2   Municipio                                       586 non-null    object 
 3   Semestre Cosecha Principal                      586 non-null    object 
 4   Semestre Cosecha Mitaca                         586 non-null    object 
 5   Categoría Cosecha Principal                     586 non-null    float64
 6   Categoría Cosecha Mitaca                        586 non-null    float64
 7   Mes Predominante I Semestre                     586 non-null    float64
 8   2do Mes Predominante I Semestre                 586 non-null    float64
 9   Mes Predominante II Semestre               

Unnamed: 0,Departamento,Código DANE Municipio,Municipio,Semestre Cosecha Principal,Semestre Cosecha Mitaca,Categoría Cosecha Principal,Categoría Cosecha Mitaca,Mes Predominante I Semestre,2do Mes Predominante I Semestre,Mes Predominante II Semestre,...,Condición Niña Débil,Rango Niña Moderada,Condición Niña Moderada,Rango Niña Fuerte,Condición Niña Fuerte,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,ANTIOQUIA,5040,ANORI,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Excedente (120 - 160),Excedente,,,,,
1,ANTIOQUIA,5854,VALDIVIA,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Normal (80 - 120),Normal,,,,,
2,ANTIOQUIA,5361,ITUANGO,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Excedente (120 - 160),Excedente,,,,,
3,ANTIOQUIA,5031,AMALFI,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Excedente (120 - 160),Excedente,,,,,
4,ANTIOQUIA,5604,REMEDIOS,II,,2.0,0.0,0.0,0.0,11.0,...,Normal,Excedente (120 - 160),Excedente,Normal (80 - 120),Normal,,,,,


In [176]:
BD_nino.info()
BD_nino.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 604 entries, 0 to 603
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Departamento           604 non-null    object 
 1   Municipio              604 non-null    object 
 2   Código DANE Municipio  604 non-null    int64  
 3   Latitud                604 non-null    float64
 4   Longitud               604 non-null    float64
 5   Rango FT               604 non-null    object 
 6   Condición FT           604 non-null    object 
 7   Rango FD               604 non-null    object 
 8   Condición FD           604 non-null    object 
 9   Rango FM               604 non-null    object 
 10  Condición FM           604 non-null    object 
 11  Rango FF               604 non-null    object 
 12  Condición FF           604 non-null    object 
dtypes: float64(2), int64(1), object(10)
memory usage: 61.5+ KB


Unnamed: 0,Departamento,Municipio,Código DANE Municipio,Latitud,Longitud,Rango FT,Condición FT,Rango FD,Condición FD,Rango FM,Condición FM,Rango FF,Condición FF
0,CALDAS,NEIRA,17486,5.183359,-75.50693,Normal (80 - 120),Normal,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Normal (80 - 120),Normal
1,NARIÑO,LA CRUZ,52378,1.584176,-76.923353,Normal (80 - 120),Normal,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Normal (80 - 120),Normal
2,HUILA,PITAL,41548,2.259602,-75.831952,Normal (80 - 120),Normal,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit
3,TOLIMA,ALPUJARRA,73024,3.390015,-74.940782,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit
4,ANTIOQUIA,AMALFI,5031,6.977789,-74.981239,Normal (80 - 120),Normal,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit,Déficit (40 - 80),Déficit


In [177]:
BD_infocul.info()
BD_infocul.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2104819 entries, 0 to 2104818
Data columns (total 9 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   Código DANE Municipio  int64  
 1   Area_Cul               float64
 2   Edad                   float64
 3   Id_S_Caficultores      int64  
 4   Id_S_finca             int64  
 5   Id_S_Lote              int64  
 6   Categoria_Productor    object 
 7   Produccion             float64
 8   Departamento           object 
dtypes: float64(3), int64(4), object(2)
memory usage: 144.5+ MB


Unnamed: 0,Código DANE Municipio,Area_Cul,Edad,Id_S_Caficultores,Id_S_finca,Id_S_Lote,Categoria_Productor,Produccion,Departamento
0,44855,0.65,40.78,11194400,17586400,34730700,Pequeño,6.825,LA GUAJIRA
1,25488,0.7,28.02,33009700,40879300,65418400,Pequeño,7.35,CUNDINAMARCA
2,25436,0.2,28.02,26145300,40591200,65353200,Pequeño,2.1,CUNDINAMARCA
3,25297,0.08,27.87,32841100,47528200,79414800,Pequeño,0.84,CUNDINAMARCA
4,15106,0.05,27.93,47969800,26123600,44997200,Pequeño,0.525,BOYACÁ


In [178]:
print(BD_infocul.columns)
print(BD_nina.columns)
print(BD_nino.columns)

Index(['Código DANE Municipio', 'Area_Cul', 'Edad', 'Id_S_Caficultores',
       'Id_S_finca', 'Id_S_Lote', 'Categoria_Productor', 'Produccion',
       'Departamento'],
      dtype='object')
Index(['Departamento', 'Código DANE Municipio', 'Municipio',
       'Semestre Cosecha Principal', 'Semestre Cosecha Mitaca',
       'Categoría Cosecha Principal', 'Categoría Cosecha Mitaca',
       'Mes Predominante I Semestre', '2do Mes Predominante I Semestre',
       'Mes Predominante II Semestre', '2do Mes Predominante II Semestre',
       'Area Cultivada de Café (Ha)',
       'Área Cultivada de Café en Edad Productiva (Ha)', 'Rango Niña Típica',
       'Condición FT', 'Rango Niña  Débil', 'Condición Niña  Débil',
       'Rango  Niña  Moderada', 'Condición Niña  Moderada',
       'Rango Niña  Fuerte', 'Condición Niña  Fuerte', 'Unnamed: 21',
       'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25'],
      dtype='object')
Index(['Departamento', 'Municipio', 'Código DANE Municipio', 'Lati

In [179]:
# Dejar las bases solamente con las variables que necesito en cada una
BD_infocul = BD_infocul[['Código DANE Municipio', 'Categoria_Productor', 'Departamento']]
BD_infocul.head()

Unnamed: 0,Código DANE Municipio,Categoria_Productor,Departamento
0,44855,Pequeño,LA GUAJIRA
1,25488,Pequeño,CUNDINAMARCA
2,25436,Pequeño,CUNDINAMARCA
3,25297,Pequeño,CUNDINAMARCA
4,15106,Pequeño,BOYACÁ


In [180]:
BD_nina = BD_nina[['Código DANE Municipio', 'Municipio', 'Condición FT', 'Departamento']]
BD_nina.head()

Unnamed: 0,Código DANE Municipio,Municipio,Condición FT,Departamento
0,5040,ANORI,Excedente,ANTIOQUIA
1,5854,VALDIVIA,Excedente,ANTIOQUIA
2,5361,ITUANGO,Excedente,ANTIOQUIA
3,5031,AMALFI,Excedente,ANTIOQUIA
4,5604,REMEDIOS,Normal,ANTIOQUIA


In [181]:
BD_nino = BD_nino[['Código DANE Municipio', 'Municipio', 'Condición FT', 'Departamento']]
BD_nino.head()

Unnamed: 0,Código DANE Municipio,Municipio,Condición FT,Departamento
0,17486,NEIRA,Normal,CALDAS
1,52378,LA CRUZ,Normal,NARIÑO
2,41548,PITAL,Normal,HUILA
3,73024,ALPUJARRA,Déficit,TOLIMA
4,5031,AMALFI,Normal,ANTIOQUIA


In [182]:
# Reemplazar valores en la columna 'Condicion FT' donde el valor es diferente de 'Normal'
BD_nina['Condición FT'] = BD_nina['Condición FT'].apply(lambda x: 'Vulnerable' if x != 'Normal' else x)
BD_nina.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  BD_nina['Condición FT'] = BD_nina['Condición FT'].apply(lambda x: 'Vulnerable' if x != 'Normal' else x)


Unnamed: 0,Código DANE Municipio,Municipio,Condición FT,Departamento
0,5040,ANORI,Vulnerable,ANTIOQUIA
1,5854,VALDIVIA,Vulnerable,ANTIOQUIA
2,5361,ITUANGO,Vulnerable,ANTIOQUIA
3,5031,AMALFI,Vulnerable,ANTIOQUIA
4,5604,REMEDIOS,Normal,ANTIOQUIA


In [183]:
BD_nino['Condición FT'] = BD_nino['Condición FT'].apply(lambda x: 'Vulnerable' if x != 'Normal' else x)
BD_nino.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  BD_nino['Condición FT'] = BD_nino['Condición FT'].apply(lambda x: 'Vulnerable' if x != 'Normal' else x)


Unnamed: 0,Código DANE Municipio,Municipio,Condición FT,Departamento
0,17486,NEIRA,Normal,CALDAS
1,52378,LA CRUZ,Normal,NARIÑO
2,41548,PITAL,Normal,HUILA
3,73024,ALPUJARRA,Vulnerable,TOLIMA
4,5031,AMALFI,Normal,ANTIOQUIA


In [184]:
print(BD_infocul.columns)
print(BD_nina.columns)
print(BD_nino.columns)

Index(['Código DANE Municipio', 'Categoria_Productor', 'Departamento'], dtype='object')
Index(['Código DANE Municipio', 'Municipio', 'Condición FT', 'Departamento'], dtype='object')
Index(['Código DANE Municipio', 'Municipio', 'Condición FT', 'Departamento'], dtype='object')


In [185]:
# Unir las bases de datos BD_infocul, BD_nina y BD_nino en un solo df
df = BD_infocul.merge(BD_nina[['Código DANE Municipio', 'Municipio', 'Condición FT']], on='Código DANE Municipio', how='left')
df = df.merge(BD_nino[['Código DANE Municipio', 'Condición FT']], on='Código DANE Municipio', how='left', suffixes=('_Nina', '_Nino'))

# Mostrar las primeras filas del dataframe resultante
df.head()

Unnamed: 0,Código DANE Municipio,Categoria_Productor,Departamento,Municipio,Condición FT_Nina,Condición FT_Nino
0,44855,Pequeño,LA GUAJIRA,URUMITA,Vulnerable,Normal
1,25488,Pequeño,CUNDINAMARCA,NILO,Vulnerable,Vulnerable
2,25436,Pequeño,CUNDINAMARCA,MANTA,Normal,Normal
3,25297,Pequeño,CUNDINAMARCA,GACHETA,Normal,Normal
4,15106,Pequeño,BOYACÁ,BRICEÑO,Vulnerable,Vulnerable


In [186]:
# Guardar el dataframe 'df' en un archivo CSV
df.to_csv(r'C:\Users\Usuario\Documents\CIENCIA DE DATOS\REPOSITORIO GITHUB\MINERÍA DE DATOS Y MODELACIÓN ejercicios\2. Ejercicio bases datos cafe\bases_cafe\df.csv', index=False)

In [187]:
df.head()

Unnamed: 0,Código DANE Municipio,Categoria_Productor,Departamento,Municipio,Condición FT_Nina,Condición FT_Nino
0,44855,Pequeño,LA GUAJIRA,URUMITA,Vulnerable,Normal
1,25488,Pequeño,CUNDINAMARCA,NILO,Vulnerable,Vulnerable
2,25436,Pequeño,CUNDINAMARCA,MANTA,Normal,Normal
3,25297,Pequeño,CUNDINAMARCA,GACHETA,Normal,Normal
4,15106,Pequeño,BOYACÁ,BRICEÑO,Vulnerable,Vulnerable


In [188]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2104819 entries, 0 to 2104818
Data columns (total 6 columns):
 #   Column                 Dtype 
---  ------                 ----- 
 0   Código DANE Municipio  int64 
 1   Categoria_Productor    object
 2   Departamento           object
 3   Municipio              object
 4   Condición FT_Nina      object
 5   Condición FT_Nino      object
dtypes: int64(1), object(5)
memory usage: 96.4+ MB


In [189]:
print(df)

         Código DANE Municipio Categoria_Productor     Departamento Municipio  \
0                        44855             Pequeño       LA GUAJIRA   URUMITA   
1                        25488             Pequeño     CUNDINAMARCA      NILO   
2                        25436             Pequeño     CUNDINAMARCA     MANTA   
3                        25297             Pequeño     CUNDINAMARCA   GACHETA   
4                        15106             Pequeño          BOYACÁ   BRICEÑO   
...                        ...                 ...              ...       ...   
2104814                  76892             Pequeño  VALLE DEL CAUCA     YUMBO   
2104815                  25513             Pequeño     CUNDINAMARCA     PACHO   
2104816                  25878             Pequeño     CUNDINAMARCA     VIOTA   
2104817                  25797             Pequeño     CUNDINAMARCA      TENA   
2104818                   5234             Pequeño        ANTIOQUIA   DABEIBA   

        Condición FT_Nina C

### 2.1. Municipios que se ven más afectados por cada fenómeno

In [190]:
# Filtrar municipios vulnerables por cada fenómeno
municipios_vulnerables_nina = df[df['Condición FT_Nina'] == 'Vulnerable']
municipios_vulnerables_nino = df[df['Condición FT_Nino'] == 'Vulnerable']

In [191]:
# Contar la cantidad de ocurrencias de vulnerabilidad por municipio para cada fenómeno
afectacion_nina = municipios_vulnerables_nina['Municipio'].value_counts()
afectacion_nino = municipios_vulnerables_nino['Municipio'].value_counts()

In [None]:
# Ver los 10 minucipios con mayor cantidad de productores vulnerables en al fenómeno de la niña
print(afectacion_nina.head(10))

Municipio
LA PLATA    30284
GARZON      29698
EL TAMBO    29662
PLANADAS    26840
ANDES       25035
CAJIBIO     24730
PIENDAMO    22849
MORALES     19768
ATACO       19157
IBAGUE      18902
Name: count, dtype: int64


In [None]:
# LOS MUNICIPIOS CON MAYOR CANTIDAD DE PRODUCTORES VULNERABLES AL FENÓMENO DE LA NIÑA SON: LA PLATA(30284), GARZON(29698) Y EL TAMBO(29662)

In [192]:
# Ver los 10 minucipios con mayor cantidad de productores vulnerables en al fenómeno de la niño
print(afectacion_nino.head(10))

Municipio
ALGECIRAS         18166
LIBANO            17414
CHAPARRAL         15674
TIMBIO            11575
AGUADAS           11291
CIENAGA           10833
CIUDAD BOLIVAR    10753
LA VEGA           10379
ABEJORRAL          9993
NEIVA              9584
Name: count, dtype: int64


In [None]:
# LOS MUNICIPIOS CON MAYOR CANTIDAD DE PRODUCTORES VULNERABLES AL FENÓMENO DE LA NIÑO SON: ALGECIRAS(18166), LIBANO(17414) Y CHAPARRAL(15674)

### 2.2. Impacto diferenciado de fenómenos de la Niña y el Niño en los pequeños, medianos y grandes productores, a nivel departamento.

In [193]:
# Agrupar por "Departamento" y "Categoria_Productor" para contar vulnerabilidades de La Niña
impacto_nina = (
    municipios_vulnerables_nina.groupby(['Departamento', 'Categoria_Productor'])
    .size()
    .unstack(fill_value=0)
    .rename(columns=lambda x: f"Afectados La Niña ({x})")
)

In [76]:
impacto_nina.head()

Categoria_Productor,Afectados La Niña (Grande),Afectados La Niña (Mediano),Afectados La Niña (Pequeño)
Departamento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ANTIOQUIA,439,4498,257058
BOLIVAR,0,58,1856
BOYACÁ,0,11,6798
CALDAS,150,2092,130462
CASANARE,0,4,267


In [None]:
# EL DEPARTAMENTO CON MAYOR CANTIDAD DE PRODUCTORES (SEGÚN SU TAMAÑO) AFECTADOS POR EL FONÓMENO DE LA NIÑA ES ANTIOQUIA: PEQUEÑO(257058), MEDIANO(4498) Y GRANDE(439)

In [194]:
# Agrupar por "Departamento" y "Categoria_Productor" para contar vulnerabilidades de El Niño
impacto_nino = (
    municipios_vulnerables_nino.groupby(['Departamento', 'Categoria_Productor'])
    .size()
    .unstack(fill_value=0)
    .rename(columns=lambda x: f"Afectados El Niño ({x})")
)

In [195]:
impacto_nino.head()

Categoria_Productor,Afectados El Niño (Grande),Afectados El Niño (Mediano),Afectados El Niño (Pequeño)
Departamento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ANTIOQUIA,132,1410,73576
BOLIVAR,0,56,1758
BOYACÁ,0,1,1728
CALDAS,0,128,21135
CAUCA,12,80,42064


In [None]:
# EL DEPARTAMENTO CON MAYOR CANTIDAD DE PRODUCTORES (SEGÚN SU TAMAÑO) AFECTADOS POR EL FONÓMENO DE LA NIÑO ES ANTIOQUIA: PEQUEÑO(73576), MEDIANO(1410) Y GRANDE(132)

In [None]:
# Exportar el archivo

In [196]:
import subprocess

In [197]:
# Convertir el archivo .ipynb a .html
subprocess.run(['jupyter', 'nbconvert', '--to', 'html', 'Ejercicio_bases_cafe.ipynb'])

CompletedProcess(args=['jupyter', 'nbconvert', '--to', 'html', 'Ejercicio_bases_cafe.ipynb'], returncode=0)

In [84]:
# Convertir el archivo .ipynb a .py
subprocess.run(['jupyter', 'nbconvert', '--to', 'script', 'Ejercicio_bases_cafe - 1.ipynb'])

CompletedProcess(args=['jupyter', 'nbconvert', '--to', 'script', 'Ejercicio_bases_cafe - 1.ipynb'], returncode=0)