## Curso de Pandas

- Es una librería de Python que se utiliza para analizar y manipular datos. Proporciona estructuras de datos como Series y DataFrame.

In [None]:
%pip install pandas

In [3]:
import pandas as pd

## Series

- Es un objeto udimensional como si fuera una columna de estilo array, tiene una secuencia de registros, su índice comienza en 0.

In [5]:
names = ["Miguel", "Pedro"]
my_series = pd.Series(names)
print(my_series)

0    Miguel
1     Pedro
dtype: object


## Dataframe

- Un DataFrame es una tabla bidimensional representa a dos dimensiones, similar a un diccionario de Series, que tiene un índice para las filas y nombres para las columnas.

In [6]:
data = {
    "name": ["Alfer", "Pedro", "Juan"],
    "age": [30, 25, 22],
    "city": ["Madrid", "Barcelona", "Valencia"]
}

df = pd.DataFrame(data)

print(df)

    name  age       city
0  Alfer   30     Madrid
1  Pedro   25  Barcelona
2   Juan   22   Valencia


In [29]:
file_path = '../assets/data-retail'
file_path_titanic = '../assets/data-titanic'

## Leer el archivo

### 1) Para leer un archivo TXT o CSV

- En este caso tenemos un archivo tipo txt separados con |nombre|... de esa forma.
- Para eso le ponemos un ```sep``` para especificar con que caracter esta separado.
- Además no tiene cabeceras así que se le debe asignar con ```header```.
- Con ```name``` le asignamos esa cabecera.

In [19]:
df_customers = pd.read_csv(
    f'{file_path}/customers.txt',
    sep = '|',
    header = None,
    names = 
    ["customer_id", "customer_fname" ,"customer_lname", "customer_email", "customer_password", "customer_steet",
    "customer_city", "customer_state", "customer_zipcode"]
)

In [32]:
df_customers.head(2)

Unnamed: 0,customer_id,customer_fname,customer_lname,customer_email,customer_password,customer_steet,customer_city,customer_state,customer_zipcode
0,1,Richard,Hernandez,XXXXXXXXX,XXXXXXXXX,6303 Heather Plaza,Brownsville,TX,78521
1,2,Mary,Barrett,XXXXXXXXX,XXXXXXXXX,9526 Noble Embers Ridge,Littleton,CO,80126


In [31]:
df_titanic = pd.read_csv(
    f'{file_path_titanic}/titanic.csv',
    sep=';'
)

In [33]:
df_titanic.head(2)

Unnamed: 0,Id_Pasajero,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
0,1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C


### 2) Para leer un archivo JSON

In [23]:
df_json = pd.read_json(f'{file_path}/data.json')
df_json.head(2)

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,María,30,Barcelona


## Filtrar una columna

In [24]:
df_customers['customer_lname']

0        Hernandez
1          Barrett
2            Smith
3            Jones
4           Hudson
           ...    
12430         Rios
12431        Smith
12432       Garcia
12433        Mills
12434       Horton
Name: customer_lname, Length: 12435, dtype: object

## Obtener el tipo de dato de cada columna

In [41]:
df_titanic.dtypes

Id_Pasajero      int64
Survived         int64
Clase            int64
Nombre          object
Sexo            object
Edad           float64
Familiares       int64
Tiquete         object
Tarifa         float64
Cabina          object
Embarcado       object
dtype: object

## Convertir columna edad a entero

In [49]:
df_titanic["Edad"] = df_titanic["Edad"].fillna(0)
df_titanic["Edad"] = df_titanic["Edad"].astype("int64")
print(df_titanic.dtypes)

Id_Pasajero      int64
Survived         int64
Clase            int64
Nombre          object
Sexo            object
Edad             int64
Familiares       int64
Tiquete         object
Tarifa         float64
Cabina          object
Embarcado       object
dtype: object


## Obtener el máximo y mínimo de la columna edad del dataframe Titanic

In [45]:
print("Edad máxima: ", df_titanic["Edad"].max())
print("Edad mínima: ", df_titanic["Edad"].min())

Edad máxima:  80
Edad mínima:  0


## Descripción estadística

In [47]:
df_titanic.describe()

Unnamed: 0,Id_Pasajero,Survived,Clase,Edad,Familiares,Tarifa
count,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,23.783389,0.381594,32.205017
std,257.353842,0.486592,0.836071,17.597344,0.806057,49.693389
min,1.0,0.0,1.0,0.0,0.0,0.0
25%,223.5,0.0,2.0,6.0,0.0,7.915
50%,446.0,0.0,3.0,24.0,0.0,14.45
75%,668.5,1.0,3.0,35.0,0.0,31.0
max,891.0,1.0,3.0,80.0,6.0,512.33


## Función info

In [51]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Id_Pasajero  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Clase        891 non-null    int64  
 3   Nombre       891 non-null    object 
 4   Sexo         891 non-null    object 
 5   Edad         891 non-null    int64  
 6   Familiares   891 non-null    int64  
 7   Tiquete      891 non-null    object 
 8   Tarifa       891 non-null    float64
 9   Cabina       204 non-null    object 
 10  Embarcado    889 non-null    object 
dtypes: float64(1), int64(5), object(5)
memory usage: 76.7+ KB


## Verificar si tiene valores nulos en los campos

In [52]:
df_titanic.isnull().sum()

Id_Pasajero      0
Survived         0
Clase            0
Nombre           0
Sexo             0
Edad             0
Familiares       0
Tiquete          0
Tarifa           0
Cabina         687
Embarcado        2
dtype: int64

## Obtener la cantidad de tipos que tiene una columna

In [54]:
df_titanic["Clase"].value_counts()

Clase
3    491
1    216
2    184
Name: count, dtype: int64

In [61]:
df_titanic["Cabina"]

0       NaN
1       C85
2       NaN
3      C123
4       NaN
       ... 
886     NaN
887     B42
888     NaN
889    C148
890     NaN
Name: Cabina, Length: 891, dtype: object

## Validar si hay PK duplicados

- El ```assert``` se utiliza para el manejo de errores en prueba, ya en producción se cambia por otro.
- Para producción se utiliza ```raise```.

In [None]:
assert df_titanic["Id_Pasajero"].is_unique, "Error de duplicados"

In [67]:
if not df_titanic["Id_Pasajero"].is_unique:
    raise ValueError("Error de duplicados en Id_Pasajero")

print("No hay duplicados ..")

No hay duplicados ..
