# Manipulación y análisis de datos con Pandas
Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos.

Las principales características de esta librería son:

- Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.
- Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
- Permite acceder a los datos mediante índices o nombres para filas y columnas.
- Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
- Realiza todas estas operaciones de manera muy eficiente.


![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

## Instalación

In [1]:
pip install pandas

Collecting pandas
  Obtaining dependency information for pandas from https://files.pythonhosted.org/packages/df/92/a3fa053c74198f9f0224b2c04dc74f41d2e14e30329c082f7a657f9ca4c5/pandas-2.1.3-cp312-cp312-win_amd64.whl.metadata
  Downloading pandas-2.1.3-cp312-cp312-win_amd64.whl.metadata (18 kB)
Collecting pytz>=2020.1 (from pandas)
  Obtaining dependency information for pytz>=2020.1 from https://files.pythonhosted.org/packages/32/4d/aaf7eff5deb402fd9a24a1449a8119f00d74ae9c2efa79f8ef9994261fc2/pytz-2023.3.post1-py2.py3-none-any.whl.metadata
  Downloading pytz-2023.3.post1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.1 (from pandas)
  Downloading tzdata-2023.3-py2.py3-none-any.whl (341 kB)
     ---------------------------------------- 0.0/341.8 kB ? eta -:--:--
     ----------------- -------------------- 153.6/341.8 kB 9.0 MB/s eta 0:00:01
     ------------------------------------- 341.8/341.8 kB 10.7 MB/s eta 0:00:00
Downloading pandas-2.1.3-cp312-cp312-win_amd64.whl (10.


[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [11]:
import pandas as pd
pd.__version__

'2.1.3'

In [3]:
pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.2-py2.py3-none-any.whl (249 kB)
     ---------------------------------------- 0.0/250.0 kB ? eta -:--:--
     - -------------------------------------- 10.2/250.0 kB ? eta -:--:--
     ----------------- -------------------- 112.6/250.0 kB 1.3 MB/s eta 0:00:01
     -------------------------------------- 250.0/250.0 kB 2.6 MB/s eta 0:00:00
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.2
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [4]:
#pip install openpyxl
df = pd.read_csv("notas.csv", encoding="latin")
print(df)
df_excel = pd.read_excel("notas.xlsx")
print("=====================================================")
print(df_excel)
print("=====================================================")


     nombres         apellidos  nota sexo
0       Jose       Roque Ramos  15.0    M
1    Marï¿½a    Quispe Huamani  10.0    F
2     Emilio     Ugarte Yaipen  20.0    M
3    Michael    Alvarez Chiyon  16.0    F
4     Raquel  Espinoza Olivera   NaN    F
5  Francisco        Lopez Vega  12.0    M
     nombres         apellidos  nota sexo
0       Jose       Roque Ramos  15.0    M
1      Maria    Quispe Huamani  10.0    F
2     Emilio     Ugarte Yaipen  20.0    M
3    Michael    Alvarez Chiyon  16.0    F
4     Raquel  Espinoza Olivera   NaN    F
5  Francisco        Lopez Vega  12.0    M


In [18]:
df.head(2)

Unnamed: 0,nombres,apellidos,nota,sexo
0,Jose,Roque Ramos,15.0,M
1,Marï¿½a,Quispe Huamani,10.0,F


In [19]:
df.tail(2)

Unnamed: 0,nombres,apellidos,nota,sexo
4,Raquel,Espinoza Olivera,,F
5,Francisco,Lopez Vega,12.0,M


In [20]:
df.sample(2)

Unnamed: 0,nombres,apellidos,nota,sexo
5,Francisco,Lopez Vega,12.0,M
3,Michael,Alvarez Chiyon,16.0,F


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   nombres    6 non-null      object 
 1   apellidos  6 non-null      object 
 2   nota       5 non-null      float64
 3   sexo       6 non-null      object 
dtypes: float64(1), object(3)
memory usage: 324.0+ bytes


## Resumen de estadistica descriptiva General
El metodo `describe()` de los dataframes presenta un resumen de la estadistica descriptiva general de las columnas numericas del dataframe.

In [22]:
df.describe()

Unnamed: 0,nota
count,5.0
mean,14.6
std,3.847077
min,10.0
25%,12.0
50%,15.0
75%,16.0
max,20.0


## Ordenar un DataFrame

In [23]:
df

Unnamed: 0,nombres,apellidos,nota,sexo
0,Jose,Roque Ramos,15.0,M
1,Marï¿½a,Quispe Huamani,10.0,F
2,Emilio,Ugarte Yaipen,20.0,M
3,Michael,Alvarez Chiyon,16.0,F
4,Raquel,Espinoza Olivera,,F
5,Francisco,Lopez Vega,12.0,M


In [26]:
df.sort_values(["sexo", "nota"], ascending=False)

Unnamed: 0,nombres,apellidos,nota,sexo
2,Emilio,Ugarte Yaipen,20.0,M
0,Jose,Roque Ramos,15.0,M
5,Francisco,Lopez Vega,12.0,M
3,Michael,Alvarez Chiyon,16.0,F
1,Marï¿½a,Quispe Huamani,10.0,F
4,Raquel,Espinoza Olivera,,F


## Manipulación de datos
### Añadir columnas

In [None]:
df

In [2]:
import numpy as np
df['nombres_completos'] = df['nombres'] + " " + df['apellidos']
df['edad'] = np.random.randint(18, 50, 6)
df["nota_final"] = df["nota"] + 1
df

NameError: name 'df' is not defined

In [34]:
def calcular_nota_final(valor):
    if(valor >= 20):
        return 20
    return valor + 1

df["nota_final_2"] = df["nota"].apply(calcular_nota_final)
df
    

Unnamed: 0,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad,nota_final
0,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45,16.0
1,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47,11.0
2,2,2,Emilio,Ugarte Yaipen,20.0,M,20.0,Emilio Ugarte Yaipen,21,21.0
3,3,3,Michael,Alvarez Chiyon,16.0,F,17.0,Michael Alvarez Chiyon,36,17.0
4,4,4,Raquel,Espinoza Olivera,,F,,Raquel Espinoza Olivera,19,
5,5,5,Francisco,Lopez Vega,12.0,M,13.0,Francisco Lopez Vega,49,13.0


### Eliminar columnas

In [35]:
df.drop("nota_final", axis=1, inplace=True)

In [30]:
df

Unnamed: 0,level_0,index,nombres,apellidos,nota,sexo
0,0,0,Jose,Roque Ramos,15.0,M
1,1,1,Marï¿½a,Quispe Huamani,10.0,F
2,2,2,Emilio,Ugarte Yaipen,20.0,M
3,3,3,Michael,Alvarez Chiyon,16.0,F
4,4,4,Raquel,Espinoza Olivera,,F
5,5,5,Francisco,Lopez Vega,12.0,M


## Seleccionar filas y columnas
Existen formas de seleccion principal son:

### Por etiquetas:
`DataFrame.loc[etiqueta_fila, etiqueta_columna]`

In [36]:
df["codigo"] = np.array(["2342", "2323", "3123", "1233", "2322", "2131"])
df.set_index("codigo", inplace=True)
df


Unnamed: 0_level_0,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45
2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47
3123,2,2,Emilio,Ugarte Yaipen,20.0,M,20.0,Emilio Ugarte Yaipen,21
1233,3,3,Michael,Alvarez Chiyon,16.0,F,17.0,Michael Alvarez Chiyon,36
2322,4,4,Raquel,Espinoza Olivera,,F,,Raquel Espinoza Olivera,19
2131,5,5,Francisco,Lopez Vega,12.0,M,13.0,Francisco Lopez Vega,49


In [37]:
df.loc["1233", "nota"]

16.0

In [38]:
df.reset_index(inplace=True)

In [39]:
df

Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47
2,3123,2,2,Emilio,Ugarte Yaipen,20.0,M,20.0,Emilio Ugarte Yaipen,21
3,1233,3,3,Michael,Alvarez Chiyon,16.0,F,17.0,Michael Alvarez Chiyon,36
4,2322,4,4,Raquel,Espinoza Olivera,,F,,Raquel Espinoza Olivera,19
5,2131,5,5,Francisco,Lopez Vega,12.0,M,13.0,Francisco Lopez Vega,49


### Por índices:
`DataFrame.iloc[indice_fila, indice_columna]`

In [13]:
primer_extraccion = df.iloc[2,3]
segunda_extraccion = df.iloc[::2,::]
print(primer_extraccion)
print(segunda_extraccion)

20.0
   index nombres         apellidos  nota sexo
0      0    Jose       Roque Ramos  15.0    M
2      2  Emilio     Ugarte Yaipen  20.0    M
4      4  Raquel  Espinoza Olivera   NaN    F


## Combinar DataFrames
Al revisar un conjunto de datos nos podemos dar cuenta de la falta de algun dato. Para solucionar este problema simplemente se ha de agregar el registro, para los que se puede utilizar el método `concat` de pandas

In [43]:
df_2 = pd.DataFrame({
    'codigo': ['321523'],
    'nombres': ['Luis Fernando'],
    'apellidos': ['Rivera Mallqui'],
    'nota': [13],
    'sexo': ['M'],
    'nombres_completos': ['Luis Fernando Rivera Mallqui'],
    'edad': [25],
    'nota_final_2': [14]
})
df_3 = pd.DataFrame({
    'codigo': ['421524'],
    'nombres': ['Joseh Alexander'],
    'apellidos': ['Polo Guerra'],
    'nota': [15],
    'sexo': ['M'],
    'nombres_completos': ['Joseph Alexander Polo Guerra'],
    'edad': [24],
    'nota_final_2': [16]
})

In [44]:
df_2

Unnamed: 0,codigo,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final_2
0,321523,Luis Fernando,Rivera Mallqui,13,M,Luis Fernando Rivera Mallqui,25,14


In [45]:
df_3

Unnamed: 0,codigo,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final_2
0,421524,Joseh Alexander,Polo Guerra,15,M,Joseph Alexander Polo Guerra,24,16


In [47]:
pd.concat([df_2, df_3], ignore_index= True)

Unnamed: 0,codigo,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final_2
0,321523,Luis Fernando,Rivera Mallqui,13,M,Luis Fernando Rivera Mallqui,25,14
1,421524,Joseh Alexander,Polo Guerra,15,M,Joseph Alexander Polo Guerra,24,16


In [48]:
serie_dni = pd.Series(["65434541", "65434542", "65434543", "65434544", "65434545", "65434546"], name='dni')
serie_dni

0    65434541
1    65434542
2    65434543
3    65434544
4    65434545
5    65434546
Name: dni, dtype: object

In [53]:
df_con_dni = pd.concat([df, serie_dni], axis = 1)
df_con_dni


Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad,dni
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45,65434541
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47,65434542
2,3123,2,2,Emilio,Ugarte Yaipen,20.0,M,20.0,Emilio Ugarte Yaipen,21,65434543
3,1233,3,3,Michael,Alvarez Chiyon,16.0,F,17.0,Michael Alvarez Chiyon,36,65434544
4,2322,4,4,Raquel,Espinoza Olivera,,F,,Raquel Espinoza Olivera,19,65434545
5,2131,5,5,Francisco,Lopez Vega,12.0,M,13.0,Francisco Lopez Vega,49,65434546


In [54]:
#SALVA/ GUARDAR DATASET
df_con_dni.to_csv("df_con_dni.csv") 

## Mezcla de DataFrames
La mezcla de DataFrames permite integrar filas de dos DataFrames que contienen información en común en una o varias columnas o índices que se conocen como clave.
![](https://i.ytimg.com/vi/Lm1RN5o964g/sddefault.jpg)

In [59]:
df.head(2)

Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47


In [68]:
df_puntos_extra = pd.DataFrame({
    'codigo': ['2342', '2323'],
    'puntos_extra': [2, 1]
})
df_puntos_extra

Unnamed: 0,codigo,puntos_extra
0,2342,2
1,2323,1


`inner` (por defecto): El DataFrame resultante solo contiene las filas cuyos valores en la clave están en los dos DataFrames. Es equivalente a la intersección de conjuntos.

In [69]:
df

Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47
2,3123,2,2,Emilio,Ugarte Yaipen,20.0,M,20.0,Emilio Ugarte Yaipen,21
3,1233,3,3,Michael,Alvarez Chiyon,16.0,F,17.0,Michael Alvarez Chiyon,36
4,2322,4,4,Raquel,Espinoza Olivera,,F,,Raquel Espinoza Olivera,19
5,2131,5,5,Francisco,Lopez Vega,12.0,M,13.0,Francisco Lopez Vega,49


In [72]:
pd.merge(left=df, right=df_puntos_extra, how="inner", on="codigo")

Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad,puntos_extra
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45,2
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47,1


`outer`: El DataFrame resultante contiene todas las filas de los dos DataFrames. Si una fila de un DataFrame no puede emparejarse con otra los mismos valores en la clave en el otro DataFrame, la fila se añade igualmente al DataFrame resultante rellenando las columnas del otro DataFrame con el valor NaN. Es equivalente a la unión de conjuntos.

In [73]:
pd.merge(left=df, right=df_puntos_extra, how="outer", on="codigo")

Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad,puntos_extra
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45,2.0
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47,1.0
2,3123,2,2,Emilio,Ugarte Yaipen,20.0,M,20.0,Emilio Ugarte Yaipen,21,
3,1233,3,3,Michael,Alvarez Chiyon,16.0,F,17.0,Michael Alvarez Chiyon,36,
4,2322,4,4,Raquel,Espinoza Olivera,,F,,Raquel Espinoza Olivera,19,
5,2131,5,5,Francisco,Lopez Vega,12.0,M,13.0,Francisco Lopez Vega,49,


`left`: El DataFrame resultante contiene todas las filas del primer DataFrame y descarta las filas del segundo DataFrame que no pueden emparejarse con alguna fila del primer DataFrame a través de la clave.

In [74]:
pd.merge(left=df, right=df_puntos_extra, how="left", on="codigo")

Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad,puntos_extra
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45,2.0
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47,1.0
2,3123,2,2,Emilio,Ugarte Yaipen,20.0,M,20.0,Emilio Ugarte Yaipen,21,
3,1233,3,3,Michael,Alvarez Chiyon,16.0,F,17.0,Michael Alvarez Chiyon,36,
4,2322,4,4,Raquel,Espinoza Olivera,,F,,Raquel Espinoza Olivera,19,
5,2131,5,5,Francisco,Lopez Vega,12.0,M,13.0,Francisco Lopez Vega,49,


`right`: El DataFrame resultante contiene todas las filas del segundo DataFrame y descarta las filas del primer DataFrame que no pueden emparejarse con alguna fila del segundo DataFrame a través de la clave.

In [75]:
pd.merge(left=df, right=df_puntos_extra, how="right", on="codigo")

Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad,puntos_extra
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45,2
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47,1


## Agrupacion por filas
El método `groupby()` le permite agrupar filas de datos y llamar a funciones agregadas.

In [79]:
df_group = df.groupby('sexo')
df_group.get_group('F')
df_group.first()

Unnamed: 0_level_0,codigo,level_0,index,nombres,apellidos,nota,nota_final_2,nombres_completos,edad
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
F,2323,1,1,Marï¿½a,Quispe Huamani,10.0,11.0,Marï¿½a Quispe Huamani,47
M,2342,0,0,Jose,Roque Ramos,15.0,16.0,Jose Roque Ramos,45


In [57]:
df_grouped = df.groupby(['sexo'])
df_grouped.mean(numeric_only = True)

Unnamed: 0_level_0,level_0,index,nota,nota_final_2,edad
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
F,2.666667,2.666667,13.0,14.0,34.0
M,2.333333,2.333333,15.666667,16.333333,38.333333


In [58]:
df.describe()

Unnamed: 0,level_0,index,nota,nota_final_2,edad
count,6.0,6.0,5.0,5.0,6.0
mean,2.5,2.5,14.6,15.4,36.166667
std,1.870829,1.870829,3.847077,3.507136,13.302882
min,0.0,0.0,10.0,11.0,19.0
25%,1.25,1.25,12.0,13.0,24.75
50%,2.5,2.5,15.0,16.0,40.5
75%,3.75,3.75,16.0,17.0,46.5
max,5.0,5.0,20.0,20.0,49.0


In [80]:
df_grouped.count()

Unnamed: 0_level_0,codigo,level_0,index,nombres,apellidos,nota,nota_final_2,nombres_completos,edad
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
F,3,3,3,3,3,2,2,3,3
M,3,3,3,3,3,3,3,3,3


In [81]:
df_grouped.sum(numeric_only=True)

Unnamed: 0_level_0,level_0,index,nota,nota_final_2,edad
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
F,8,8,26.0,28.0,102
M,7,7,47.0,49.0,115


In [83]:
df_grouped.agg({'nota': ['min', 'max', 'mean'],
                'edad': ['mean', 'count']})

Unnamed: 0_level_0,nota,nota,nota,edad,edad
Unnamed: 0_level_1,min,max,mean,mean,count
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
F,10.0,16.0,13.0,34.0,3
M,12.0,20.0,15.666667,38.333333,3


## Trabajando con fechas
La librería NumPy de Python define el tipo de dato `datetime64` para trabajar con fechas y diferencias entre fechas. A la hora de importar fechas es habitual que estas se encuentren como cadenas de texto, por lo que en Pandas existe la función `to_datetime()` mediante la cual se pueden realizar la conversión de estos datos de texto a fecha.

In [85]:
df["fecha_nacimiento"] = ['06/12/1993', '06/12/1991', '06/12/1992', '06/12/1994', '06/12/1995', '06/12/1996']
df["fecha_nacimiento"] = pd.to_datetime(df["fecha_nacimiento"], format="%d/%m/%Y")
df

Unnamed: 0,codigo,level_0,index,nombres,apellidos,nota,sexo,nota_final_2,nombres_completos,edad,fecha_nacimiento
0,2342,0,0,Jose,Roque Ramos,15.0,M,16.0,Jose Roque Ramos,45,1993-12-06
1,2323,1,1,Marï¿½a,Quispe Huamani,10.0,F,11.0,Marï¿½a Quispe Huamani,47,1991-12-06
2,3123,2,2,Emilio,Ugarte Yaipen,20.0,M,20.0,Emilio Ugarte Yaipen,21,1992-12-06
3,1233,3,3,Michael,Alvarez Chiyon,16.0,F,17.0,Michael Alvarez Chiyon,36,1994-12-06
4,2322,4,4,Raquel,Espinoza Olivera,,F,,Raquel Espinoza Olivera,19,1995-12-06
5,2131,5,5,Francisco,Lopez Vega,12.0,M,13.0,Francisco Lopez Vega,49,1996-12-06


In [3]:
df_bono_pescador = pd.read_csv("BonoPescador2023.csv")
df_bono_pescador

Unnamed: 0,ID,EDAD,SEXO,CODIGO_DEPARTAMENTO,REGION,TIPO_PESCADOR,COBRO,MONTO,FECHA_CORTE,FECHA_PUBLICACION_PNDA
0,1,54,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
1,2,51,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
2,3,45,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
3,4,50,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
4,5,21,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
...,...,...,...,...,...,...,...,...,...,...
35503,35504,39,M,25,UCAYALI,NO EMBARCADO,1,500,20230430,20230626
35504,35505,51,M,25,UCAYALI,NO EMBARCADO,1,500,20230430,20230626
35505,35506,35,M,25,UCAYALI,NO EMBARCADO,1,500,20230430,20230626
35506,35507,41,M,25,UCAYALI,NO EMBARCADO,1,500,20230430,20230626


In [4]:
#Imprimir una lista de las columnas.
df_bono_pescador.columns

Index(['ID', 'EDAD', 'SEXO', 'CODIGO_DEPARTAMENTO', 'REGION', 'TIPO_PESCADOR',
       'COBRO', 'MONTO', 'FECHA_CORTE', 'FECHA_PUBLICACION_PNDA'],
      dtype='object')

In [5]:
#En la lista de columnas, busque las columnas que indique el monto que se le entregó a cada persona beneficiada. Use la notación de puntos para extraer esto a una varialbe.
df_bono_pescador["MONTO"]
#df_bono_pescador.MONTO

0        500
1        500
2        500
3        500
4        500
        ... 
35503    500
35504    500
35505    500
35506    500
35507    500
Name: MONTO, Length: 35508, dtype: int64

In [6]:
#Utilice head() para imprimir las primeras líneas de la variable que acaba de crear
df_bono_pescador.head(6)

Unnamed: 0,ID,EDAD,SEXO,CODIGO_DEPARTAMENTO,REGION,TIPO_PESCADOR,COBRO,MONTO,FECHA_CORTE,FECHA_PUBLICACION_PNDA
0,1,54,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
1,2,51,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
2,3,45,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
3,4,50,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
4,5,21,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626
5,6,36,M,1,AMAZONAS,NO EMBARCADO,1,500,20230430,20230626


In [8]:
#Elija las columnas del monto y seco y guárdelas en un nuevo DataFrame
df_bono_pescador_filtrado = df_bono_pescador[["ID", "MONTO", "SEXO", "EDAD"]]
df_bono_pescador_filtrado

Unnamed: 0,ID,MONTO,SEXO,EDAD
0,1,500,M,54
1,2,500,M,51
2,3,500,M,45
3,4,500,M,50
4,5,500,M,21
...,...,...,...,...
35503,35504,500,M,39
35504,35505,500,M,51
35505,35506,500,M,35
35506,35507,500,M,41


In [10]:
#Use el comando describe con el DataFrame que acaba de crear para ver resúmenes de esas variables
df_bono_pescador.info()
df_bono_pescador.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35508 entries, 0 to 35507
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   ID                      35508 non-null  int64 
 1   EDAD                    35508 non-null  int64 
 2   SEXO                    35498 non-null  object
 3   CODIGO_DEPARTAMENTO     35508 non-null  int64 
 4   REGION                  35508 non-null  object
 5   TIPO_PESCADOR           35508 non-null  object
 6   COBRO                   35508 non-null  int64 
 7   MONTO                   35508 non-null  int64 
 8   FECHA_CORTE             35508 non-null  int64 
 9   FECHA_PUBLICACION_PNDA  35508 non-null  int64 
dtypes: int64(7), object(3)
memory usage: 2.7+ MB


Unnamed: 0,ID,EDAD,CODIGO_DEPARTAMENTO,COBRO,MONTO,FECHA_CORTE,FECHA_PUBLICACION_PNDA
count,35508.0,35508.0,35508.0,35508.0,35508.0,35508.0,35508.0
mean,17754.5,43.901346,13.090937,0.920609,500.0,20230430.0,20230626.0
std,10250.421016,13.564738,6.258887,0.270351,0.0,0.0,0.0
min,1.0,18.0,1.0,0.0,500.0,20230430.0,20230626.0
25%,8877.75,33.0,7.0,1.0,500.0,20230430.0,20230626.0
50%,17754.5,43.0,15.0,1.0,500.0,20230430.0,20230626.0
75%,26631.25,54.0,18.0,1.0,500.0,20230430.0,20230626.0
max,35508.0,123.0,25.0,1.0,500.0,20230430.0,20230626.0


In [20]:
#Agrupe por sexo y muestre cuanto fue el monto que recibió por cada sexo en el 2023
df_bono_pescador["FECHA_CORTE"] = pd.to_datetime(df_bono_pescador["FECHA_CORTE"], format="%Y%m%d")

df_bono_pescador["FECHA_CORTE_ANIO"] = df_bono_pescador["FECHA_CORTE"].dt.year
df_bono_pescador



Unnamed: 0,ID,EDAD,SEXO,CODIGO_DEPARTAMENTO,REGION,TIPO_PESCADOR,COBRO,MONTO,FECHA_CORTE,FECHA_PUBLICACION_PNDA,FECHA_CORTE_ANIO
0,1,54,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
1,2,51,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
2,3,45,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
3,4,50,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
4,5,21,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
...,...,...,...,...,...,...,...,...,...,...,...
35503,35504,39,M,25,UCAYALI,NO EMBARCADO,1,500,2023-04-30,20230626,2023
35504,35505,51,M,25,UCAYALI,NO EMBARCADO,1,500,2023-04-30,20230626,2023
35505,35506,35,M,25,UCAYALI,NO EMBARCADO,1,500,2023-04-30,20230626,2023
35506,35507,41,M,25,UCAYALI,NO EMBARCADO,1,500,2023-04-30,20230626,2023


In [22]:
#Aplicando filtro solo para 2023
df_bono_pescador[df_bono_pescador["FECHA_CORTE_ANIO"] == 2023]

Unnamed: 0,ID,EDAD,SEXO,CODIGO_DEPARTAMENTO,REGION,TIPO_PESCADOR,COBRO,MONTO,FECHA_CORTE,FECHA_PUBLICACION_PNDA,FECHA_CORTE_ANIO
0,1,54,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
1,2,51,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
2,3,45,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
3,4,50,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
4,5,21,M,1,AMAZONAS,NO EMBARCADO,1,500,2023-04-30,20230626,2023
...,...,...,...,...,...,...,...,...,...,...,...
35503,35504,39,M,25,UCAYALI,NO EMBARCADO,1,500,2023-04-30,20230626,2023
35504,35505,51,M,25,UCAYALI,NO EMBARCADO,1,500,2023-04-30,20230626,2023
35505,35506,35,M,25,UCAYALI,NO EMBARCADO,1,500,2023-04-30,20230626,2023
35506,35507,41,M,25,UCAYALI,NO EMBARCADO,1,500,2023-04-30,20230626,2023


In [23]:
df_bono_pescador.groupby("SEXO").agg({"MONTO": ["sum"]})

Unnamed: 0_level_0,MONTO
Unnamed: 0_level_1,sum
SEXO,Unnamed: 1_level_2
F,2023000
M,15726000


In [25]:
#¿Cuánto es el monto que aun falta por cobrar?
df_bono_pescador.groupby("COBRO").agg({"MONTO": ["sum"]})

Unnamed: 0_level_0,MONTO
Unnamed: 0_level_1,sum
COBRO,Unnamed: 1_level_2
0,1409500
1,16344500


## Ejercicio

Descargue el dataframe:

https://www.datosabiertos.gob.pe/dataset/beneficiarios-del-bono-pescador-ministerio-de-la-producci%C3%B3n-produce

Luego cree un jupyter notebook y resuelva lo siguiente:

1. Imprimir una lista de las columnas
2. En la lista de columnas, busque las columnas que indique el monto que se le entregó a cada persona beneficiada. Use la notación de puntos para extraer esto a una variable.
3. Utilice `head()` para imprimir las primeras líneas de la variable que acaba de crear.
4. Elija las columnas del monto y sexo y guárdelas en un nuevo DataFrame.
5. Use el comando describe con el DataFrame que acaba de crear para ver resúmenes de esas variables.
6. Agrupe por sexo y muestre cuanto fue el monto que recibió por cada sexo en el 2023
7. ¿Cuánto es el monto que aun falta por cobrar?