# üêº Pandas: An√°lisis de Datos - Parte 1

## üéØ Objetivos de Aprendizaje

Al finalizar este notebook, ser√°s capaz de:

- Comprender qu√© es Pandas y su importancia en Data Science
- Trabajar con las estructuras de datos fundamentales: Series y DataFrames
- Cargar y explorar datasets desde diferentes fuentes
- Realizar operaciones b√°sicas de manipulaci√≥n de datos
- Filtrar, seleccionar y indexar datos de manera eficiente
- Aplicar funciones de agregaci√≥n y estad√≠sticas descriptivas
- Manejar datos faltantes (missing data)

## üìö Contenido

1. **Introducci√≥n a Pandas**
   - ¬øQu√© es Pandas?
   - Ventajas para an√°lisis de datos
   - Instalaci√≥n e importaci√≥n

2. **Estructuras de Datos en Pandas**
   - **Series**: Arrays unidimensionales con etiquetas
   - **DataFrame**: Estructuras bidimensionales (como tablas)

3. **Carga de Datos**
   - Lectura desde archivos CSV
   - Lectura desde Excel
   - Otras fuentes de datos

4. **Exploraci√≥n Inicial de Datos**
   - M√©todos `head()`, `tail()`, `info()`
   - Estad√≠sticas descriptivas con `describe()`
   - Forma y dimensiones del dataset

5. **Indexaci√≥n y Selecci√≥n**
   - Selecci√≥n por etiquetas (`loc`)
   - Selecci√≥n por posici√≥n (`iloc`)
   - Selecci√≥n de columnas y filas espec√≠ficas

6. **Filtrado de Datos**
   - Filtros condicionales
   - M√∫ltiples condiciones
   - M√©todo `query()`

7. **Operaciones B√°sicas**
   - Agregaciones: `sum()`, `mean()`, `count()`
   - Operaciones por columnas
   - Creaci√≥n de nuevas columnas

8. **Manejo de Datos Faltantes**
   - Identificaci√≥n con `isnull()` y `isna()`
   - Eliminaci√≥n con `dropna()`
   - Imputaci√≥n con `fillna()`

## üõ†Ô∏è Prerrequisitos

- Conocimiento s√≥lido de Python (listas, diccionarios, funciones)
- Familiaridad con NumPy (recomendado)
- Conceptos b√°sicos de an√°lisis de datos

## üì¶ Librer√≠a Utilizada

```python
import pandas as pd
import numpy as np  # Complementario para operaciones num√©ricas
```

## üí° Conceptos Clave

- **Series**: Estructura unidimensional similar a una columna de Excel
- **DataFrame**: Estructura bidimensional similar a una hoja de c√°lculo
- **Index**: Etiquetas para identificar filas y columnas
- **Missing Data**: Datos faltantes o nulos en el dataset
- **Aggregation**: Operaciones que resumen m√∫ltiples valores en uno solo

## üåü ¬øPor qu√© Pandas?

- **Facilidad de uso**: Sintaxis intuitiva para manipulaci√≥n de datos
- **Rendimiento**: Operaciones optimizadas para grandes datasets
- **Flexibilidad**: Manejo de diferentes tipos de datos (num√©ricos, texto, fechas)
- **Integraci√≥n**: Compatible con todo el ecosistema cient√≠fico de Python
- **Funcionalidad**: Herramientas completas para limpieza y transformaci√≥n de datos

## üìÅ Estructura de Datos de Ejemplo

Durante este notebook trabajaremos con datasets reales para ejemplificar cada concepto con casos pr√°cticos.

---

In [16]:
import pandas as pd

In [17]:
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

In [18]:
df.head(2)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,


In [8]:
df.tail(2)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificaci√≥n, Evaluaci√≥n y Coordinaci√≥n ...",249972.86,124986.43,374959.29,
384,27-27011181-0,2019,12,FERNANDEZ,KARINA BEATRIZ,SECR Asuntos Estrat√©gicos,187539.45,15628.29,203167.74,alta desde el 10/12


In [10]:
df.sample(2)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
280,20-31164337-2,2019,9,DI BENEDETTO,FEDERICO,SS Comunicacion,249972.87,0.0,249972.87,
247,20-25567686-6,2019,8,BENEGAS,FERNANDO,SECR Coordinaci√≥n General,239470.36,0.0,239470.36,


In [None]:
df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

In [None]:
df.describe()

Unnamed: 0,anio,mes,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii
count,385.0,385.0,385.0,385.0,385.0
mean,2019.0,6.631169,234234.368,20282.084883,254516.452883
std,0.0,3.539077,35043.160085,45248.840725,51434.98787
min,2019.0,1.0,74991.86,0.0,185396.54
25%,2019.0,4.0,224516.62,0.0,224516.62
50%,2019.0,7.0,239470.36,0.0,245811.62
75%,2019.0,10.0,249972.87,0.0,263531.98
max,2019.0,12.0,275089.75,170855.56,445945.31


In [None]:
df.shape

(385, 10)

In [None]:
df.index

RangeIndex(start=0, stop=385, step=1)

In [None]:
df.columns

Index(['cuil', 'anio', 'mes', 'funcionario_apellido', 'funcionario_nombre',
       'reparticion', 'asignacion_por_cargo_i', 'aguinaldo_ii',
       'total_salario_bruto_i_+_ii', 'observaciones'],
      dtype='object')

In [12]:
df[ df['mes'] == 1].head(2)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,


In [14]:
df[ df['mes'] < 6 ].head(2)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,


In [None]:
df[ df.funcionario_apellido == 'RODRIGUEZ LARRETA']

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
32,20-17692128-6,2019,2,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
64,20-17692128-6,2019,3,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,217520.38,0.0,217520.38,
95,20-17692128-6,2019,4,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,217520.38,0.0,217520.38,
126,20-17692128-6,2019,5,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,217520.38,0.0,217520.38,
157,20-17692128-6,2019,6,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.4,114198.2,342594.6,
188,20-17692128-6,2019,7,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.4,0.0,228396.4,
219,20-17692128-6,2019,8,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.4,0.0,228396.4,
250,20-17692128-6,2019,9,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,239816.22,0.0,239816.22,
281,20-17692128-6,2019,10,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,245811.62,0.0,245811.62,


In [15]:
df[ (df.funcionario_apellido == 'RODRIGUEZ LARRETA') & (df.mes == 3) ]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
64,20-17692128-6,2019,3,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,217520.38,0.0,217520.38,


In [None]:
df.query(' mes == 12 & funcionario_apellido == "RODRIGUEZ LARRETA" ')

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
366,20-17692128-6,2019,12,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,245811.62,122905.81,368717.43,


In [None]:
df[ df['funcionario_apellido'].str.contains('LARR') ]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
23,20-26781618-3,2019,1,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,0.0,204017.27,
32,20-17692128-6,2019,2,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
55,20-26781618-3,2019,2,LARRE,PEDRO ANDRES,"SECR Ciencia, Tecnologia e Innovacion",204017.27,34002.88,238020.15,baja 28/2/2019
64,20-17692128-6,2019,3,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,217520.38,0.0,217520.38,
95,20-17692128-6,2019,4,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,217520.38,0.0,217520.38,
126,20-17692128-6,2019,5,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,217520.38,0.0,217520.38,
157,20-17692128-6,2019,6,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.4,114198.2,342594.6,
188,20-17692128-6,2019,7,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.4,0.0,228396.4,
219,20-17692128-6,2019,8,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.4,0.0,228396.4,


In [22]:
df_titanic = pd.read_csv('https://storage.googleapis.com/humai-datasets/aws_s3/analisis_de_datos/1_Indexing/titanic.csv',
                         sep='|')
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [23]:
df_titanic.shape

(891, 12)

In [21]:
# Cuantas personas sobrevivieron? 342, Cuantos hombres subieron al barco?, Cuantos hombres sobrevivieron?

Indexing

In [None]:
df.head(2)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,


[start,stop,step]

In [27]:
df.iloc[10:20 , :]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
10,20-24941711-5,2019,1,MURA,MARTIN,Ministerio de Econom√≠a y Finanzas,224516.62,0.0,224516.62,
11,20-21981279-6,2019,1,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,224516.62,0.0,224516.62,
12,27-24030362-6,2019,1,TAGLIAFERRI,GUADALUPE,Ministerio de H√°bitat y Desarrollo Humano,224516.62,0.0,224516.62,
13,20-23864572-8,2019,1,STRAFACE,FERNANDO DIEGO,SECR General y de Relaciones Internacionales,224516.62,0.0,224516.62,
14,27-17593512-1,2019,1,MONTIEL,MARIA LETICIA,SECR Legal y T√©cnica,218659.66,0.0,218659.66,
15,20-16891528-5,2019,1,NACHON,MARCELO JORGE,SECR de Medios,218659.66,0.0,218659.66,
16,20-30593774-7,2019,1,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificaci√≥n, Evaluaci√≥n y Coordinaci√≥n ...",204017.27,0.0,204017.27,
17,20-29751476-9,2019,1,CARRILLO,FACUNDO,SECR Atenci√≥n y Gesti√≥n Ciudadana,204017.27,0.0,204017.27,
18,20-22366623-0,2019,1,COSTANTINO,SERGIO GABRIEL,SECR Integraci√≥n Social Para Personas Mayores,204017.27,0.0,204017.27,
19,20-24424714-9,2019,1,D'ALESSANDRO,MARCELO SILVIO,SECR Justicia y Seguridad,204017.27,0.0,204017.27,


In [None]:
df.loc[: , ['mes','funcionario_nombre']]

Unnamed: 0,mes,funcionario_nombre
0,1,HORACIO ANTONIO
1,1,DIEGO CESAR
2,1,MARIA SOLEDAD
3,1,GABRIEL MARIA
4,1,ENRIQUE LUIS
...,...,...
380,12,JUAN JOSE
381,12,FERNANDO DIEGO
382,12,BRUNO GUIDO
383,12,PATRICIO IGNACIO


<figure>
  <img src='https://static.wixstatic.com/media/99d03c_7a2ee27525bd4bf7a534788fe924d4d1~mv2.jpg/v1/fill/w_364,h_337,al_c,lg_1,q_80,enc_avif,quality_auto/99d03c_7a2ee27525bd4bf7a534788fe924d4d1~mv2.jpg'>
  <figcaption align='right'></figcaption>
</figure>

In [None]:
df['mes'].count()

np.int64(385)

In [None]:
df['aguinaldo_ii'].mean()

np.float64(20282.084883116884)

In [None]:
df['aguinaldo_ii'].min()

0.0

In [None]:
df['aguinaldo_ii'].max()

170855.56

In [None]:
df['aguinaldo_ii'].sum()

np.float64(7808602.68)

In [None]:
df.describe()

Unnamed: 0,anio,mes,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii
count,385.0,385.0,385.0,385.0,385.0
mean,2019.0,6.631169,234234.368,20282.084883,254516.452883
std,0.0,3.539077,35043.160085,45248.840725,51434.98787
min,2019.0,1.0,74991.86,0.0,185396.54
25%,2019.0,4.0,224516.62,0.0,224516.62
50%,2019.0,7.0,239470.36,0.0,245811.62
75%,2019.0,10.0,249972.87,0.0,263531.98
max,2019.0,12.0,275089.75,170855.56,445945.31


In [None]:
df.head(2)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,


In [28]:
df.sort_values('aguinaldo_ii',ascending=True).head(2)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
223,20-25641207-2,2019,8,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,263531.98,0.0,263531.98,
232,20-23864572-8,2019,8,STRAFACE,FERNANDO DIEGO,SECR General y de Relaciones Internacionales,263531.98,0.0,263531.98,


In [None]:
df['anio_mes'] = df['anio'] + df['mes']
df.head()

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones,anio_mes
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,,2020
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,,2020
2,27-24483014-0,2019,1,ACU√ëA,MARIA SOLEDAD,Ministerio de Educaci√≥n e Innovaci√≥n,224516.62,0.0,224516.62,,2020
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuraci√≥n General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,,2020
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,,2020


In [29]:
df_futbol = pd.read_csv('https://curso-data-science-verdadero-6to.s3.sa-east-1.amazonaws.com/csv/2024_BallonDorNominee.csv')
#[start,stop,step]
df_futbol = df_futbol.iloc[: , 1:]
df_futbol.head(2)

Unnamed: 0,league,season,team,player,nation,pos,age,born,Playing Time-MP,Playing Time-Starts,...,Performance_misc-Crs,Performance_misc-Int,Performance_misc-TklW,Performance_misc-PKwon,Performance_misc-PKcon,Performance_misc-OG,Performance_misc-Recov,Aerial Duels-Won,Aerial Duels-Lost,Aerial Duels-Won%
0,ENG-Premier League,2324,Arsenal,Bukayo Saka,ENG,FW,21,2001,35,35,...,181,15,35,1,0,0,155,23,36,39.0
1,ENG-Premier League,2324,Arsenal,Declan Rice,ENG,MF,24,1999,38,37,...,60,44,51,0,2,0,178,39,43,47.6


# **Ejercicios**
* Cuantos posibles ganadores hay?
* Cuantos equipos tienen posibles ganadores del premio?
* Cuantos paises tienen posibles ganadores del premio?
* Cual es la edad promedio?
* Cual es la posicion mas frecuente?
* Cual es el jugador con mayor duelos aereos ganados? (Columna llamada Aerial Duels-Won)
* Quien tiene mejor G+A? Pista ( Columna llamada Performance-G+A)
