BASE DE DATOS MINERIA 2001-2023

Contexto: Esta base de datos contiene información sobre la producción y comercialización de materiales en distintos estados y municipios de México, registrada de forma mensual y anual.
Su objetivo es permitir un análisis estadístico y exploratorio, ayudando a detectar patrones, variaciones y posibles áreas de mejora en la industria.

Descripcion mgenerasl: 
*Se tiene un registrto mensual y anual de produccion. 
*Se incluyen datos geográficos (estado y municipio).
*Información sobre tipo de productos, su volumen y estado del registro.
*Se utilizaran graficas y modelos predictivos.

| Columna          | Descripción breve                                     | Tipo de dato | Ejemplo         |
|------------------|--------------------------------------------------------|--------------|-----------------|
| COBERTURA        | Nivel geográfico del dato                              | str          | Estatal         |
| ANIO             | Año en el que se registró la información                | int          | 2022            |
| MES              | Mes en el que se registró la información                | str          | Marzo           |
| ESTADO           | Estado de la República Mexicana                         | str          | Chihuahua       |
| MUNICIPIO        | Municipio correspondiente                               | str          | Chihuahua       |
| GRUPO_PRODUCTO   | Categoría general del producto                          | str          | Minerales no metálicos |
| PRODUCTO         | Nombre específico del producto                          | str          | Arena           |
| UNIDAD_MEDIDA    | Unidad en que se mide el volumen                        | str          | Toneladas       |
| VOLUMEN          | Cantidad producida o comercializada                     | float        | 12500.50        |
| ESTATUS          | Estado del registro                                     | str          | Activo          |



In [72]:
import pandas as pd
import numpy as np

In [73]:
df=pd.read_csv('ProduccionMinera_sucio.csv')
df

Unnamed: 0,COBERTURA,ANIO,MES,ESTADO,MUNICIPIO,GRUPO_PRODUCTO,PRODUCTO,UNIDAD_MEDIDA,VOLUMEN,ESTATUS
0,Municipal,2001.0,Enero,Baja California,Agua Prieta,Metales Preciosos,Oro,Kilogramos,239.6,Cifras Definitivas.
1,Municipal,2001.0,Enero,Baja California,Agua Prieta,,Plata,Kilogramos,1642.0,Cifras Definitivas.
2,Municipal,2001.0,Enero,Baja California,Agua Prieta,Metales Industriales No Ferrosos,Plomo,Toneladas,0.0,Cifras Definitivas.
3,Municipal,2001.0,Enero,Baja California,Agua Prieta,Metales Industriales No Ferrosos,Cobre,Toneladas,0.0,Cifras Definitivas.
4,Municipal,,Enero,Coahuila de Zaragoza,Agua Prieta,Minerales No Metálicos,Fluorita,Toneladas,2430.0,Cifras Definitivas.
...,...,...,...,...,...,...,...,...,...,...
95215,Municipal,2011.0,Diciembre,Jalisco,San Sebastián del Oeste,Metales Preciosos,Oro,Kilogramos,1.2,Cifras Definitivas.
95216,Municipal,2017.0,Febrero,México,Zacualpan,Metales Preciosos,Oro,Kilogramos,1.0,Cifras Definitivas.
95217,Municipal,2008.0,Diciembre,Zacatecas,Chalchihuites,,Zinc,Toneladas,216.0,Cifras Definitivas.
95218,Municipal,2011.0,Agosto,Jalisco,Cananea,Metales Industriales No Ferrosos,Plomo,Toneladas,15.0,Cifras Definitivas.


In [74]:
df.columns

Index(['COBERTURA', 'ANIO', 'MES', 'ESTADO', 'MUNICIPIO', 'GRUPO_PRODUCTO',
       'PRODUCTO', 'UNIDAD_MEDIDA', 'VOLUMEN', 'ESTATUS'],
      dtype='object')

In [75]:
df['COBERTURA'].unique()

array(['Municipal', nan, 'Auto%#'], dtype=object)

In [76]:
df.isnull().sum()


COBERTURA         2856
ANIO              2856
MES               2856
ESTADO            2856
MUNICIPIO         2856
GRUPO_PRODUCTO    2856
PRODUCTO          2856
UNIDAD_MEDIDA     2856
VOLUMEN           2856
ESTATUS           2856
dtype: int64

In [77]:
df.duplicated().sum()


np.int64(5629)

In [78]:
df = df.drop_duplicates()


In [79]:
df.duplicated().sum()

np.int64(0)

In [81]:
df.isnull().sum()

COBERTURA            0
ANIO              2838
MES               2821
ESTADO            2846
MUNICIPIO         2844
GRUPO_PRODUCTO    2850
PRODUCTO          2850
UNIDAD_MEDIDA     2850
VOLUMEN           2849
ESTATUS           2850
dtype: int64

In [80]:
df["COBERTURA"]=df["COBERTURA"].fillna("Municipal")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["COBERTURA"]=df["COBERTURA"].fillna("Municipal")


In [82]:
df["GRUPO_PRODUCTO"].unique()

array(['Metales Preciosos', nan, 'Metales Industriales No Ferrosos',
       'Minerales No Metálicos', 'Metales y Minerales Siderúrgicos',
       'Auto%#'], dtype=object)

In [83]:
df['ESTADO'] = df['ESTADO'].fillna('Desconocido')


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['ESTADO'] = df['ESTADO'].fillna('Desconocido')


In [84]:
df['MES'] = df['MES'].fillna('Desconocido')


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['MES'] = df['MES'].fillna('Desconocido')


In [85]:
df['MUNICIPIO'] = df['MUNICIPIO'].fillna('Desconocido')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['MUNICIPIO'] = df['MUNICIPIO'].fillna('Desconocido')


In [86]:
df['PRODUCTO'] = df['PRODUCTO'].fillna('Desconocido')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['PRODUCTO'] = df['PRODUCTO'].fillna('Desconocido')


In [87]:
df['GRUPO_PRODUCTO'] = df['GRUPO_PRODUCTO'].fillna('Desconocido')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['GRUPO_PRODUCTO'] = df['GRUPO_PRODUCTO'].fillna('Desconocido')


In [88]:
moda = df['UNIDAD_MEDIDA'].mode()[0]

In [89]:
df['UNIDAD_MEDIDA'] = df['UNIDAD_MEDIDA'].fillna(moda)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['UNIDAD_MEDIDA'] = df['UNIDAD_MEDIDA'].fillna(moda)


In [90]:
moda1= df['VOLUMEN'].mode()[0]
df['VOLUMEN'] = df['VOLUMEN'].fillna(moda1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['VOLUMEN'] = df['VOLUMEN'].fillna(moda1)


In [91]:
moda2= df['ESTATUS'].mode()[0]
df['ESTATUS'] = df['ESTATUS'].fillna(moda2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['ESTATUS'] = df['ESTATUS'].fillna(moda2)


In [92]:
df['ANIO'] = pd.to_numeric(df['ANIO'], errors='coerce') 


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['ANIO'] = pd.to_numeric(df['ANIO'], errors='coerce')


In [93]:
promedio = round(df['ANIO'].mean())
df['ANIO'] = df['ANIO'].fillna(promedio)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['ANIO'] = df['ANIO'].fillna(promedio)


In [94]:
df = df.sort_values(by='ANIO').reset_index(drop=True)

In [95]:
df

Unnamed: 0,COBERTURA,ANIO,MES,ESTADO,MUNICIPIO,GRUPO_PRODUCTO,PRODUCTO,UNIDAD_MEDIDA,VOLUMEN,ESTATUS
0,Municipal,2001.0,Enero,Durango,Centro,Metales Industriales No Ferrosos,Zinc,Toneladas,1.0,Cifras Definitivas.
1,Municipal,2001.0,Desconocido,Durango,Concepción del Oro,Metales Preciosos,Oro,Kilogramos,0.1,Cifras Definitivas.
2,Municipal,2001.0,Enero,Durango,Concepción del Oro,Metales Preciosos,Plata,Kilogramos,0.0,Cifras Definitivas.
3,Municipal,2001.0,Enero,Durango,Concepción del Oro,Metales Industriales No Ferrosos,Plomo,Toneladas,5.0,Cifras Definitivas.
4,Auto%#,2001.0,Enero,Durango,Aquila,Metales Preciosos,Oro,Kilogramos,0.6,Cifras Definitivas.
...,...,...,...,...,...,...,...,...,...,...
89586,Municipal,2023.0,Diciembre,Durango,Mazapil,Metales Preciosos,Oro,Kilogramos,168.0,Cifras Preliminares.
89587,Municipal,2023.0,Abril,Sonora,Jiménez del Teul,Metales Industriales No Ferrosos,Zinc,Toneladas,1669.0,Cifras Preliminares.
89588,Municipal,2023.0,Febrero,Aguascalientes,Agua Prieta,Metales Industriales No Ferrosos,Cobre,Toneladas,48.0,Cifras Preliminares.
89589,Municipal,2023.0,Diciembre,Durango,Mazapil,Metales Preciosos,Desconocido,Kilogramos,13285.0,Cifras Preliminares.


In [96]:
for col in df.columns:
    print(f"Columna: {col}")
    print(df[col].value_counts(dropna=False))
    print("-" * 40)


Columna: COBERTURA
COBERTURA
Municipal    87729
Auto%#        1862
Name: count, dtype: int64
----------------------------------------
Columna: ANIO
ANIO
2012.0    7062
2013.0    4435
2001.0    4236
2008.0    4101
2007.0    3997
2009.0    3990
2010.0    3982
2011.0    3969
2016.0    3944
2014.0    3934
2005.0    3882
2006.0    3836
2004.0    3674
2015.0    3664
2018.0    3611
2017.0    3604
2002.0    3514
2019.0    3443
2003.0    3404
2020.0    3373
2021.0    3333
2022.0    3306
2023.0    3297
Name: count, dtype: int64
----------------------------------------
Columna: MES
MES
Diciembre      7152
Noviembre      7100
Septiembre     7097
Febrero        7093
Octubre        7076
Marzo          7075
Julio          7075
Junio          7071
Mayo           7068
Enero          7067
Abril          7055
Agosto         7011
Desconocido    2821
Auto%#         1830
Name: count, dtype: int64
----------------------------------------
Columna: ESTADO
ESTADO
Zacatecas                          13965
Durango

In [97]:
Mes={'Auto%#':'Desconocido'}

In [98]:
df['MES'] = df['MES'].replace(Mes)

In [99]:
df['COBERTURA']=df['COBERTURA'].replace(Mes)

In [100]:
df['GRUPO_PRODUCTO']=df['GRUPO_PRODUCTO'].replace(Mes)

In [101]:
df['PRODUCTO']=df['PRODUCTO'].replace(Mes)

In [102]:
df['UNIDAD_MEDIDA']=df['UNIDAD_MEDIDA'].replace(Mes)

In [103]:
df['COBERTURA'].unique()

array(['Municipal', 'Desconocido'], dtype=object)

In [104]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 89591 entries, 0 to 89590
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   COBERTURA       89591 non-null  object 
 1   ANIO            89591 non-null  float64
 2   MES             89591 non-null  object 
 3   ESTADO          89591 non-null  object 
 4   MUNICIPIO       89591 non-null  object 
 5   GRUPO_PRODUCTO  89591 non-null  object 
 6   PRODUCTO        89591 non-null  object 
 7   UNIDAD_MEDIDA   89591 non-null  object 
 8   VOLUMEN         89591 non-null  float64
 9   ESTATUS         89591 non-null  object 
dtypes: float64(2), object(8)
memory usage: 6.8+ MB


In [105]:
df.isnull().sum()

COBERTURA         0
ANIO              0
MES               0
ESTADO            0
MUNICIPIO         0
GRUPO_PRODUCTO    0
PRODUCTO          0
UNIDAD_MEDIDA     0
VOLUMEN           0
ESTATUS           0
dtype: int64

In [106]:
df.to_csv("Base_limpia.csv", index=False)