<img src="https://www.utb.edu.co/wp-content/uploads/2020/09/utb-logotipo.png"/>

# Pandas
Pandas es una biblioteca que proporciona estructuras de datos y herramientas de análisis de datos para Python. Las dos estructuras de datos principales de Pandas son Series y DataFrames.

In [2]:
import pandas as pd

In [3]:
# Crear una serie
serie = pd.Series([1, 3, 5, 7, 9])
serie

0    1
1    3
2    5
3    7
4    9
dtype: int64

In [4]:
# Serie con etiquetas
serie_etiquetada = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
serie_etiquetada

a    10
b    20
c    30
dtype: int64

In [5]:
# Acceso por índice
serie[0]

np.int64(1)

In [6]:
# Acceso por etiqueta
serie_etiquetada['b']

np.int64(20)

In [7]:
import numpy as np

In [8]:
# Crear un DataFrame desde un diccionario
datos = {
    'Nombre': ['Juan', 'Ana', 'Pedro', 'María'],
    'Edad': [28, 34, 29, 42],
    'Ciudad': ['Bogotá', 'Medellín', 'Cali', 'Cartagena']
}
df = pd.DataFrame(datos)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28,Bogotá
1,Ana,34,Medellín
2,Pedro,29,Cali
3,María,42,Cartagena


In [9]:
# Crear un DataFrame desde un array
array_datos = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
df_array = pd.DataFrame(array_datos, columns=['A', 'B', 'C'])
#df_array.to_excel('datos.xlsx', index=False)
#df_array.to_csv('datos.csv', index=False)
#df_array.to_parquet("data.parquet", index=False)

In [10]:
# Propiedades del DataFrame
print(df.shape)   # Dimensiones
print(df.size)    # Número total de elementos
print(df.columns) # Nombres de las columnas
print(df.index)   # Índices

(4, 3)
12
Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')
RangeIndex(start=0, stop=4, step=1)


In [11]:
# Selección de una columna
df['Nombre']

0     Juan
1      Ana
2    Pedro
3    María
Name: Nombre, dtype: object

In [12]:
# Selección de varias columnas
df[['Nombre', 'Edad']]

Unnamed: 0,Nombre,Edad
0,Juan,28
1,Ana,34
2,Pedro,29
3,María,42


In [13]:
# Selección de filas por índice
df.iloc[0]   # Primera fila

Nombre      Juan
Edad          28
Ciudad    Bogotá
Name: 0, dtype: object

In [14]:
# Selección de filas por índice
df.iloc[1:3] # Filas desde el índice 1 hasta el 2

Unnamed: 0,Nombre,Edad,Ciudad
1,Ana,34,Medellín
2,Pedro,29,Cali


In [15]:
# Selección de filas por etiqueta
df.loc[0]   # Primera fila, si el índice es numérico

Nombre      Juan
Edad          28
Ciudad    Bogotá
Name: 0, dtype: object

In [16]:
# Selección de filas por etiqueta
df.loc[1:3] # Filas desde el índice 1 hasta el 3

Unnamed: 0,Nombre,Edad,Ciudad
1,Ana,34,Medellín
2,Pedro,29,Cali
3,María,42,Cartagena


In [17]:
# Filtrar filas basadas en condiciones
df[df['Edad'] > 30]

Unnamed: 0,Nombre,Edad,Ciudad
1,Ana,34,Medellín
3,María,42,Cartagena


In [18]:
df[     df['Ciudad'] == 'Bogotá'      ]

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28,Bogotá


In [19]:
# Sumar una columna
df['Edad'].sum()

np.int64(133)

In [20]:
# Promedio de una columna
df['Edad'].mean()

np.float64(33.25)

In [21]:
# Agregar una nueva columna
df['Salario'] = [3000, 3500, 2500, 4000]
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Juan,28,Bogotá,3000
1,Ana,34,Medellín,3500
2,Pedro,29,Cali,2500
3,María,42,Cartagena,4000


In [22]:
# Eliminar una columna
#df = df.drop(columns=['Salario'])
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Juan,28,Bogotá,3000
1,Ana,34,Medellín,3500
2,Pedro,29,Cali,2500
3,María,42,Cartagena,4000


In [23]:
# Leer un archivo CSV
df_csv = pd.read_csv('database/contactos.txt')

In [24]:
df_csv.dtypes

Nombre      object
Apellido    object
Correo      object
Telefono     int64
Ciudad      object
dtype: object

In [25]:
df_csv

Unnamed: 0,Nombre,Apellido,Correo,Telefono,Ciudad
0,Sofía,Ruiz,sofía.ruiz@gmail.com,3062852055,Medellín
1,Pedro,Rodríguez,pedro.rodríguez@yahoo.com,3030542678,Cúcuta
2,Pedro,Ruiz,pedro.ruiz@utb.edu.co,3066583181,Cartagena
3,María,Ruiz,maría.ruiz@hotmail.com,3112139650,Cúcuta
4,Luis,Torres,luis.torres@gmail.com,3071380359,Barranquilla
...,...,...,...,...,...
10102,Carlos,Gómez,carlos.gómez@utb.edu.co,3014273412,Medellín
10103,Sofía,Ramírez,sofía.ramírez@hotmail.com,3162803434,Barranquilla
10104,Laura,Sánchez,laura.sánchez@utb.edu.co,3161155803,Pereira
10105,Laura,Sánchez,laura.sánchez@hotmail.com,3008665708,Medellín


In [26]:
# Aplicar varias funciones de agregación
df_csv.describe()

Unnamed: 0,Telefono
count,10107.0
mean,3233931000.0
std,9458515000.0
min,300334500.0
25%,3049314000.0
50%,3098556000.0
75%,3148408000.0
max,897263600000.0


## Asignar Tipos de Datos al Cargar un Archivo CSV

In [27]:
df = pd.read_csv('database/contactos.txt', dtype={
    "Nombre": "string",
    "Apellido": "string",
    "Correo": "string",
    "Telefono": "string",
    "Ciudad": "string"
})

In [28]:
df.dtypes

Nombre      string[python]
Apellido    string[python]
Correo      string[python]
Telefono    string[python]
Ciudad      string[python]
dtype: object

In [29]:
len(df)

10107

In [30]:
df["Ciudad"].unique()

<StringArray>
[    'Medellín',       'Cúcuta',    'Cartagena', 'Barranquilla',
      'Pereira',       'Bogotá',  'Bucaramanga',    'Manizales',
  'Santa Marta',         'Cali',      'Cartago']
Length: 11, dtype: string

In [31]:
df["Ciudad"].value_counts()

Ciudad
Barranquilla    1084
Bucaramanga     1035
Bogotá          1028
Cartagena       1012
Pereira         1011
Medellín        1009
Cali            1001
Manizales        996
Cúcuta           982
Santa Marta      947
Cartago            2
Name: count, dtype: Int64

In [32]:
df["Ciudad"].value_counts().head(5)

Ciudad
Barranquilla    1084
Bucaramanga     1035
Bogotá          1028
Cartagena       1012
Pereira         1011
Name: count, dtype: Int64

In [33]:
df["Nombre"].value_counts()

Nombre
Sofía          1049
Carlos         1047
Laura          1034
María          1027
Andrés         1019
Daniela        1008
Pedro           997
Camila          981
Ana             976
Luis            914
Juan             17
Andrea           16
Javier           13
Patricia          4
Juan Camilo       2
Juan Manuel       2
Juana             1
Name: count, dtype: Int64

In [34]:
df["Nombre"].value_counts().head(5)

Nombre
Sofía     1049
Carlos    1047
Laura     1034
María     1027
Andrés    1019
Name: count, dtype: Int64

In [35]:
df["Nombre"].value_counts().tail(5)

Nombre
Javier         13
Patricia        4
Juan Camilo     2
Juan Manuel     2
Juana           1
Name: count, dtype: Int64

In [36]:
df["Correo"].str.split("@").str[1].value_counts()

Correo
hotmail.com    2583
yahoo.com      2521
utb.edu.co     2516
gmail.com      2461
outlook.com      23
perez.com         3
Name: count, dtype: int64

In [37]:
df["Correo"].str.split("@").str[1].value_counts().head(1)

Correo
hotmail.com    2583
Name: count, dtype: int64

In [38]:
df.groupby(["Ciudad"]).value_counts()

Ciudad        Nombre  Apellido   Correo                     Telefono  
Barranquilla  Ana     Fernández  ana.fernández@gmail.com    3050438128    1
                                                            3053677963    1
                                 ana.fernández@hotmail.com  3080090652    1
                                                            3092895312    1
                                 ana.fernández@utb.edu.co   3122859243    1
                                                                         ..
Santa Marta   Sofía   Torres     sofía.torres@hotmail.com   3126462935    1
                                                            3168389194    1
                                 sofía.torres@utb.edu.co    3010348765    1
                                                            3149489922    1
                                 sofía.torres@yahoo.com     3127691156    1
Name: count, Length: 10106, dtype: int64

In [39]:
# Eliminar filas duplicadas basadas en Nombre y Apellido
#df_unicos = df.drop_duplicates(subset=['Nombre', 'Apellido'])

# Agrupar por ciudad y contar el número de registros únicos por ciudad
grupo_ciudad = df.groupby("Ciudad")[["Nombre", "Apellido", "Correo", "Telefono"]].apply(lambda x: x.reset_index(drop=True))

grupo_ciudad

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Apellido,Correo,Telefono
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Barranquilla,0,Luis,Torres,luis.torres@gmail.com,3071380359
Barranquilla,1,Javier,Ruiz,javier.ruiz@outlook.com,3093612216
Barranquilla,2,Pedro,Díaz,pedro.díaz@gmail.com,3055123903
Barranquilla,3,Sofía,García,sofía.garcía@yahoo.com,3034255485
Barranquilla,4,Juan,Martínez,juan.martínez@outlook.com,3122077084
...,...,...,...,...,...
Santa Marta,942,Pedro,Rodríguez,pedro.rodríguez@yahoo.com,3057920560
Santa Marta,943,Ana,Ramírez,ana.ramírez@yahoo.com,3077225515
Santa Marta,944,Ana,López,ana.lópez@gmail.com,3098555508
Santa Marta,945,Sofía,Fernández,sofía.fernández@gmail.com,3150063488


In [42]:
df["Correo"].value_counts().head(5)

Correo
andrés.lópez@hotmail.com     42
pedro.gómez@hotmail.com      38
daniela.lópez@hotmail.com    38
laura.sánchez@utb.edu.co     38
sofía.ramírez@utb.edu.co     37
Name: count, dtype: Int64

In [43]:
df["Telefono"].value_counts().head(5)

Telefono
231472398431    2
3102146370      1
3013301495      1
3192693449      1
3062852055      1
Name: count, dtype: Int64

In [None]:
dataset_limpio = df.drop_duplicates(subset="Correo", keep="first")
dataset_limpio = dataset_limpio.drop_duplicates(subset="Telefono", keep="first")

Unnamed: 0,Nombre,Apellido,Correo,Telefono,Ciudad
0,Sofía,Ruiz,sofía.ruiz@gmail.com,3062852055,Medellín
1,Pedro,Rodríguez,pedro.rodríguez@yahoo.com,3030542678,Cúcuta
2,Pedro,Ruiz,pedro.ruiz@utb.edu.co,3066583181,Cartagena
3,María,Ruiz,maría.ruiz@hotmail.com,3112139650,Cúcuta
4,Luis,Torres,luis.torres@gmail.com,3071380359,Barranquilla
...,...,...,...,...,...
1899,Luis,Ramírez,luis.ramírez@gmail.com,3191749495,Pereira
1977,Carlos,Torres,carlos.torres@gmail.com,3025273159,Cartagena
2037,Andrés,Fernández,andrés.fernández@gmail.com,3023322563,Bogotá
2318,Andrés,Pérez,andrés.pérez@hotmail.com,3092149467,Cartagena


In [45]:
dataset_limpio["Correo"].value_counts().head(5)

Correo
pedro.ruiz@utb.edu.co            1
daniela.rodríguez@hotmail.com    1
andrés.ramírez@gmail.com         1
andrés.gómez@hotmail.com         1
sofía.ruiz@utb.edu.co            1
Name: count, dtype: Int64