# ¿Que es Pandas?

Herramienta de manipulación y análisis de datos. Para trabajar con datos estructurados o tabulares de manera sencilla. Algunas de las características principales de pandas incluyen:

1. **Dataframe**. Tabla bidimensional con etiquetas en las filas y columnas -> similar a una hoja de cálculo.

2. **Series**: Estructura unidimensional, pero con etiquetas en cada elemento -> similar a un array o una lista

3. **Operaciones de datos**: para manipular y transformar datos, como selección, filtrado, agrupación, fusión y concatenación de conjuntos de datos.

4. **Manejo de datos faltantes**: pandas facilita el manejo de valores nulos (NaN) en los conjuntos de datos, permitiendo realizar operaciones sin preocuparse por la presencia de datos faltantes.

5. **Entrada y salida de datos**: La librería permite leer y escribir datos en diversos formatos, como CSV, Excel, SQL, JSON, y más, facilitando la integración con diferentes fuentes de datos.


# DataFrame

Características clave de un DataFrame en pandas:

**Bidimensional**: Un DataFrame consta de filas y columnas. Cada fila representa una observación o un conjunto de datos relacionado, y cada columna representa una variable específica.

**Etiquetas**: Tanto las filas como las columnas en un DataFrame pueden tener etiquetas (índices) que facilitan la identificación y acceso a datos específicos.

**Heterogeneidad**: A diferencia de las estructuras de datos homogéneas, como los arrays de NumPy, los DataFrames en pandas pueden contener datos de diferentes tipos en cada columna. Por ejemplo, una columna puede contener números enteros, mientras que otra puede contener cadenas de texto.

**Flexibilidad en tamaño:** Puedes ajustar dinámicamente el tamaño del DataFrame, agregando o eliminando filas y columnas según sea necesario.


# Contenido

1. Selección renglones y columnas
2. Indices: set, reset, uso de indices
3. Filtrado
4. Actualización de renglones y columnas
5. Agregar/remover renglones/columnas
6. Ordenamiento de datos
7. Agrupamiento y Agregación
8. Limpieza de datos
9. Caso de estudio


# Ejemplo: crear un diccionario a partir de un diccionario de Python

In [6]:
import pandas as pd

# Crear un DataFrame a partir de un diccionario
data = {'Nombre': ['Ana', 'Juan', 'María'],
        'Edad': [25, 30, 22],
        'Ciudad': ['CDMX', 'Puebla', 'Cuernavaca']}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,CDMX
1,Juan,30,Puebla
2,María,22,Cuernavaca


Seleccionar renglones y columnas
type(df['Ciudad']) -> Series
df.Ciudad
df[['Edad', 'Ciudad']]

In [None]:
df[['Edad', 'Ciudad']]
#df.columns
df.re

Unnamed: 0,Edad,Ciudad
0,25,CDMX
1,30,Puebla
2,22,Cuernavaca


Acceso a través de Indices. Uso de iloc y loc

In [None]:
type(df.iloc[0])
df.iloc[0, 1]
df.iloc[[0,1], 2]

0      CDMX
1    Puebla
Name: Ciudad, dtype: object

In [None]:
df.loc[[0, 1], ['Ciudad', 'Edad']]

Unnamed: 0,Ciudad,Edad
0,CDMX,25
1,Puebla,30


In [None]:
df.set_index('Ciudad', inplace=True)
df.index


Index(['CDMX', 'Puebla', 'Cuernavaca'], dtype='object', name='Ciudad')

In [None]:
df.loc['CDMX', 'Edad']

25

In [None]:
df.reset_index(inplace=True)

In [59]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,CDMX
1,Juan,30,Puebla
2,María,22,Cuernavaca


In [61]:
df.loc[len(df.index)] = ['Fer', 50, 'CDMX']
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,CDMX
1,Juan,30,Puebla
2,María,22,Cuernavaca
3,Ana,25,CDMX
4,Fer,50,CDMX


In [65]:
df.sort_values('Edad', ascending=False)

Unnamed: 0,Nombre,Edad,Ciudad
4,Fer,50,CDMX
1,Juan,30,Puebla
0,Ana,25,CDMX
3,Ana,25,CDMX
2,María,22,Cuernavaca


# Filtros

In [None]:
filt = df['Edad'] < 30

In [None]:
df[filt]

Unnamed: 0,level_0,index,Ciudad,Nombre,Edad
0,0,0,CDMX,Ana,25
2,2,2,Cuernavaca,María,22


In [None]:
from google.colab import data_table
data_table.enable_dataframe_formatter()

Un ejemplo un poco mas complejo

In [10]:
from google.colab import data_table
from vega_datasets import data
cars = data.cars()
cars
#type(cars)

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA
...,...,...,...,...,...,...,...,...,...
401,ford mustang gl,27.0,4,140.0,86.0,2790,15.6,1982-01-01,USA
402,vw pickup,44.0,4,97.0,52.0,2130,24.6,1982-01-01,Europe
403,dodge rampage,32.0,4,135.0,84.0,2295,11.6,1982-01-01,USA
404,ford ranger,28.0,4,120.0,79.0,2625,18.6,1982-01-01,USA


In [None]:
cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 406 entries, 0 to 405
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Name              406 non-null    object        
 1   Miles_per_Gallon  398 non-null    float64       
 2   Cylinders         406 non-null    int64         
 3   Displacement      406 non-null    float64       
 4   Horsepower        400 non-null    float64       
 5   Weight_in_lbs     406 non-null    int64         
 6   Acceleration      406 non-null    float64       
 7   Year              406 non-null    datetime64[ns]
 8   Origin            406 non-null    object        
dtypes: datetime64[ns](1), float64(4), int64(2), object(2)
memory usage: 28.7+ KB


In [82]:
cars['Miles_per_Gallon'].describe()
cars['Miles_per_Gallon'].value_counts()

13.0    20
14.0    19
15.0    18
18.0    16
26.0    14
        ..
31.9     1
16.9     1
18.2     1
22.3     1
44.0     1
Name: Miles_per_Gallon, Length: 129, dtype: int64

In [39]:
filt = cars['Miles_per_Gallon'] >=  40.0
cars[filt][['Name', 'Miles_per_Gallon']]
f2 = cars['Name'].str.contains('mazda')
cars[f2]['Name']



78        mazda rx2 coupe
250            mazda rx-4
253      mazda glc deluxe
326             mazda 626
329             mazda glc
341         mazda rx-7 gs
356           mazda glc 4
365             mazda 626
384    mazda glc custom l
385      mazda glc custom
Name: Name, dtype: object

In [58]:
cars.loc[len(df.index)] = cars.loc[1]
cars

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA
...,...,...,...,...,...,...,...,...,...
401,ford mustang gl,27.0,4,140.0,86.0,2790,15.6,1982-01-01,USA
402,vw pickup,44.0,4,97.0,52.0,2130,24.6,1982-01-01,Europe
403,dodge rampage,32.0,4,135.0,84.0,2295,11.6,1982-01-01,USA
404,ford ranger,28.0,4,120.0,79.0,2625,18.6,1982-01-01,USA
