# Manipulación y análisis de datos con Pandas
Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos.

Las principales características de esta librería son:

- Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.
- Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.
- Permite acceder a los datos mediante índices o nombres para filas y columnas.
- Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
- Realiza todas estas operaciones de manera muy eficiente.


![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

## Instalación

In [1]:
pip install pandas

Collecting pandas
  Obtaining dependency information for pandas from https://files.pythonhosted.org/packages/df/92/a3fa053c74198f9f0224b2c04dc74f41d2e14e30329c082f7a657f9ca4c5/pandas-2.1.3-cp312-cp312-win_amd64.whl.metadata
  Downloading pandas-2.1.3-cp312-cp312-win_amd64.whl.metadata (18 kB)
Collecting pytz>=2020.1 (from pandas)
  Obtaining dependency information for pytz>=2020.1 from https://files.pythonhosted.org/packages/32/4d/aaf7eff5deb402fd9a24a1449a8119f00d74ae9c2efa79f8ef9994261fc2/pytz-2023.3.post1-py2.py3-none-any.whl.metadata
  Downloading pytz-2023.3.post1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.1 (from pandas)
  Downloading tzdata-2023.3-py2.py3-none-any.whl (341 kB)
     ---------------------------------------- 0.0/341.8 kB ? eta -:--:--
     ---- ---------------------------------- 41.0/341.8 kB 2.0 MB/s eta 0:00:01
     -------------------------------------  337.9/341.8 kB 5.3 MB/s eta 0:00:01
     -------------------------------------- 341.8/341.8


[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [11]:
import pandas as pd
pd.__version__

'2.1.3'

In [17]:
#pip install openpyxl
df = pd.read_csv("notas.csv", encoding="latin")
print(df)
df_excel = pd.read_excel("notas.xlsx")
print("=====================================================")
print(df_excel)
print("=====================================================")


     nombres         apellidos  nota sexo
0       Jose       Roque Ramos  15.0    M
1    Marï¿½a    Quispe Huamani  10.0    F
2     Emilio     Ugarte Yaipen  20.0    M
3    Michael    Alvarez Chiyon  16.0    F
4     Raquel  Espinoza Olivera   NaN    F
5  Francisco        Lopez Vega  12.0    M
     nombres         apellidos  nota sexo
0       Jose       Roque Ramos  15.0    M
1      Maria    Quispe Huamani  10.0    F
2     Emilio     Ugarte Yaipen  20.0    M
3    Michael    Alvarez Chiyon  16.0    F
4     Raquel  Espinoza Olivera   NaN    F
5  Francisco        Lopez Vega  12.0    M


In [18]:
df.head(2)

Unnamed: 0,nombres,apellidos,nota,sexo
0,Jose,Roque Ramos,15.0,M
1,Marï¿½a,Quispe Huamani,10.0,F


In [19]:
df.tail(2)

Unnamed: 0,nombres,apellidos,nota,sexo
4,Raquel,Espinoza Olivera,,F
5,Francisco,Lopez Vega,12.0,M


In [20]:
df.sample(2)

Unnamed: 0,nombres,apellidos,nota,sexo
5,Francisco,Lopez Vega,12.0,M
3,Michael,Alvarez Chiyon,16.0,F


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   nombres    6 non-null      object 
 1   apellidos  6 non-null      object 
 2   nota       5 non-null      float64
 3   sexo       6 non-null      object 
dtypes: float64(1), object(3)
memory usage: 324.0+ bytes


## Resumen de estadistica descriptiva General
El metodo `describe()` de los dataframes presenta un resumen de la estadistica descriptiva general de las columnas numericas del dataframe.

In [22]:
df.describe()

Unnamed: 0,nota
count,5.0
mean,14.6
std,3.847077
min,10.0
25%,12.0
50%,15.0
75%,16.0
max,20.0


## Ordenar un DataFrame

In [23]:
df

Unnamed: 0,nombres,apellidos,nota,sexo
0,Jose,Roque Ramos,15.0,M
1,Marï¿½a,Quispe Huamani,10.0,F
2,Emilio,Ugarte Yaipen,20.0,M
3,Michael,Alvarez Chiyon,16.0,F
4,Raquel,Espinoza Olivera,,F
5,Francisco,Lopez Vega,12.0,M


In [26]:
df.sort_values(["sexo", "nota"], ascending=False)

Unnamed: 0,nombres,apellidos,nota,sexo
2,Emilio,Ugarte Yaipen,20.0,M
0,Jose,Roque Ramos,15.0,M
5,Francisco,Lopez Vega,12.0,M
3,Michael,Alvarez Chiyon,16.0,F
1,Marï¿½a,Quispe Huamani,10.0,F
4,Raquel,Espinoza Olivera,,F


## Manipulación de datos
### Añadir columnas

In [None]:
df

In [48]:
import numpy as np
df['nombres_completos'] = df['nombres'] + " " + df['apellidos']
df['edad'] = np.random.randint(18, 50, 6)
df["nota_final"] = df["nota"] + 1
df

Unnamed: 0,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final_2,nota_final
0,Jose,Roque Ramos,15.0,M,Jose Roque Ramos,27,16.0,16.0
1,Marï¿½a,Quispe Huamani,10.0,F,Marï¿½a Quispe Huamani,42,11.0,11.0
2,Emilio,Ugarte Yaipen,20.0,M,Emilio Ugarte Yaipen,34,20.0,21.0
3,Michael,Alvarez Chiyon,16.0,F,Michael Alvarez Chiyon,48,17.0,17.0
4,Raquel,Espinoza Olivera,,F,Raquel Espinoza Olivera,21,,
5,Francisco,Lopez Vega,12.0,M,Francisco Lopez Vega,47,13.0,13.0


In [35]:
def calcular_nota_final(valor):
    if(valor >= 20):
        return 20
    return valor + 1

df["nota_final_2"] = df["nota"].apply(calcular_nota_final)
df
    

Unnamed: 0,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final,nota_final_2
0,Jose,Roque Ramos,15.0,M,Jose Roque Ramos,20,16.0,16.0
1,Marï¿½a,Quispe Huamani,10.0,F,Marï¿½a Quispe Huamani,33,11.0,11.0
2,Emilio,Ugarte Yaipen,20.0,M,Emilio Ugarte Yaipen,29,21.0,20.0
3,Michael,Alvarez Chiyon,16.0,F,Michael Alvarez Chiyon,42,17.0,17.0
4,Raquel,Espinoza Olivera,,F,Raquel Espinoza Olivera,29,,
5,Francisco,Lopez Vega,12.0,M,Francisco Lopez Vega,30,13.0,13.0


### Eliminar columnas

In [50]:
df.drop("nota_final", axis=1, inplace=True)

In [55]:
df

Unnamed: 0,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final_2
0,Jose,Roque Ramos,15.0,M,Jose Roque Ramos,27,16.0
1,Marï¿½a,Quispe Huamani,10.0,F,Marï¿½a Quispe Huamani,42,11.0
2,Emilio,Ugarte Yaipen,20.0,M,Emilio Ugarte Yaipen,34,20.0
3,Michael,Alvarez Chiyon,16.0,F,Michael Alvarez Chiyon,48,17.0
4,Raquel,Espinoza Olivera,,F,Raquel Espinoza Olivera,21,
5,Francisco,Lopez Vega,12.0,M,Francisco Lopez Vega,47,13.0


## Seleccionar filas y columnas
Existen formas de seleccion principal son:

### Por etiquetas:
`DataFrame.loc[etiqueta_fila, etiqueta_columna]`

In [67]:
df["codigo"] = np.array(["2342", "2323", "3123", "1233", "2322", "2131"])
df.set_index("codigo", inplace=True)
df


Unnamed: 0_level_0,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final_2
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2342,Jose,Roque Ramos,15.0,M,Jose Roque Ramos,27,16.0
2323,Marï¿½a,Quispe Huamani,10.0,F,Marï¿½a Quispe Huamani,42,11.0
3123,Emilio,Ugarte Yaipen,20.0,M,Emilio Ugarte Yaipen,34,20.0
1233,Michael,Alvarez Chiyon,16.0,F,Michael Alvarez Chiyon,48,17.0
2322,Raquel,Espinoza Olivera,,F,Raquel Espinoza Olivera,21,
2131,Francisco,Lopez Vega,12.0,M,Francisco Lopez Vega,47,13.0


In [66]:
df.loc["1233", "nota"]

16.0

In [68]:
df.reset_index(inplace=True)

Unnamed: 0,codigo,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final_2
0,2342,Jose,Roque Ramos,15.0,M,Jose Roque Ramos,27,16.0
1,2323,Marï¿½a,Quispe Huamani,10.0,F,Marï¿½a Quispe Huamani,42,11.0
2,3123,Emilio,Ugarte Yaipen,20.0,M,Emilio Ugarte Yaipen,34,20.0
3,1233,Michael,Alvarez Chiyon,16.0,F,Michael Alvarez Chiyon,48,17.0
4,2322,Raquel,Espinoza Olivera,,F,Raquel Espinoza Olivera,21,
5,2131,Francisco,Lopez Vega,12.0,M,Francisco Lopez Vega,47,13.0


In [69]:
df

Unnamed: 0_level_0,nombres,apellidos,nota,sexo,nombres_completos,edad,nota_final_2
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2342,Jose,Roque Ramos,15.0,M,Jose Roque Ramos,27,16.0
2323,Marï¿½a,Quispe Huamani,10.0,F,Marï¿½a Quispe Huamani,42,11.0
3123,Emilio,Ugarte Yaipen,20.0,M,Emilio Ugarte Yaipen,34,20.0
1233,Michael,Alvarez Chiyon,16.0,F,Michael Alvarez Chiyon,48,17.0
2322,Raquel,Espinoza Olivera,,F,Raquel Espinoza Olivera,21,
2131,Francisco,Lopez Vega,12.0,M,Francisco Lopez Vega,47,13.0


### Por índices:
`DataFrame.iloc[indice_fila, indice_columna]`

In [70]:
df.iloc[2,3]

'M'

## Combinar DataFrames
Al revisar un conjunto de datos nos podemos dar cuenta de la falta de algun dato. Para solucionar este problema simplemente se ha de agregar el registro, para los que se puede utilizar el método `concat` de pandas

## Mezcla de DataFrames
La mezcla de DataFrames permite integrar filas de dos DataFrames que contienen información en común en una o varias columnas o índices que se conocen como clave.
![](https://i.ytimg.com/vi/Lm1RN5o964g/sddefault.jpg)

`inner` (por defecto): El DataFrame resultante solo contiene las filas cuyos valores en la clave están en los dos DataFrames. Es equivalente a la intersección de conjuntos.

`outer`: El DataFrame resultante contiene todas las filas de los dos DataFrames. Si una fila de un DataFrame no puede emparejarse con otra los mismos valores en la clave en el otro DataFrame, la fila se añade igualmente al DataFrame resultante rellenando las columnas del otro DataFrame con el valor NaN. Es equivalente a la unión de conjuntos.

`left`: El DataFrame resultante contiene todas las filas del primer DataFrame y descarta las filas del segundo DataFrame que no pueden emparejarse con alguna fila del primer DataFrame a través de la clave.

`right`: El DataFrame resultante contiene todas las filas del segundo DataFrame y descarta las filas del primer DataFrame que no pueden emparejarse con alguna fila del segundo DataFrame a través de la clave.

## Agrupacion por filas
El método `groupby()` le permite agrupar filas de datos y llamar a funciones agregadas.

## Trabajando con fechas
La librería NumPy de Python define el tipo de dato `datetime64` para trabajar con fechas y diferencias entre fechas. A la hora de importar fechas es habitual que estas se encuentren como cadenas de texto, por lo que en Pandas existe la función `to_datetime()` mediante la cual se pueden realizar la conversión de estos datos de texto a fecha.

## Ejercicio

Descargue el dataframe:

https://www.datosabiertos.gob.pe/dataset/beneficiarios-del-bono-pescador-ministerio-de-la-producci%C3%B3n-produce

Luego cree un jupyter notebook y resuelva lo siguiente:

1. Imprimir una lista de las columnas
2. En la lista de columnas, busque las columnas que indique el monto que se le entregó a cada persona beneficiada. Use la notación de puntos para extraer esto a una variable.
3. Utilice `head()` para imprimir las primeras líneas de la variable que acaba de crear.
4. Elija las columnas del monto y sexo y guárdelas en un nuevo DataFrame.
5. Use el comando describe con el DataFrame que acaba de crear para ver resúmenes de esas variables.
6. Agrupe por sexo y muestre cuanto fue el monto que recibió por cada sexo en el 2023
7. ¿Cuánto es el monto que aun falta por cobrar?